Ключевые результаты
Второй AutoPET Challenge 2023 года был направлен на оценку способности алгоритмов машинного обучения, обученных на данных из одного источника, сохранять эффективность при работе с клинически значимыми вариациями ПЭТ/КТ данных. Лучшая команда достигла среднего коэффициента сходства Дайса 0,5038, среднего объема ложноположительных результатов 87,8388 мл и среднего объема ложноотрицательных результатов 8,4154 мл на тестовом наборе.
Методология
В исследовании участвовали 17 международных команд. Участники обучали модели машинного обучения на аннотированных данных всего тела с ¹⁸F-FDG (n = 1 014). Модели оценивались на тестовом наборе из 200 образцов из 5 клинически значимых доменов, включающих:
- Вариации между учреждениями
- Различные патологии
- Различные популяции пациентов
- Данные с другим радиофармпрепаратом
Большинство участников использовали архитектуру 3D U-Net, а самым популярным фреймворком стал nnU-Net.
Клиническое значение
Результаты демонстрируют, что генерализация алгоритмов, обученных на данных из одного источника, остаётся значительной проблемой в автоматической сегментации опухолевых очагов на ПЭТ/КТ. Наблюдалось существенное снижение производительности при применении моделей к данным вне домена обучения, особенно на:
- Педиатрических данных
- Данных с PSMA-трейсером
Детальный анализ ошибок выявил частые ложноположительные результаты из-за физиологического накопления РФП и сниженную чувствительность в обнаружении мелких очагов или очагов с низким накоплением трейсера.
Выводы
Второй AutoPET Challenge предоставил всестороннюю оценку текущего состояния автоматической сегментации опухолей на ПЭТ/КТ. Исследование подчеркивает как прогресс в этой области, так и сохраняющиеся проблемы генерализации алгоритмов, обученных на данных из одного источника.
Результаты указывают на необходимость разнообразных общедоступных наборов данных для повышения надежности алгоритмов. Интересно, что ансамблевый подход с голосованием большинства обеспечил минимальный прирост производительности, в то время как гипотетический "оракул-ансамбль" указывает на возможность значительного улучшения результатов при оптимальной комбинации моделей.
