Как структурировать процессы контроля качества для аннотаций медицинских снимков

Как структурировать процессы контроля качества для аннотаций медицинских снимков

При создании любой модели компьютерного зрения командам разработчиков машинного обучения требуются высококачественные массивы данных с высококачественными аннотациями, чтобы обеспечить хорошую точность модели.

Однако когда дело касается создания моделей искусственного интеллекта для применения в здравоохранении, ставки становятся ещё выше — эти модели могут непосредственно влиять на жизни людей. Их необходимо обучать на данных, аннотированных опытными медицинскими специалистами, у которых не очень много свободного времени. Также они должны удовлетворять высоким научным и нормативным стандартам, поэтому чтобы вывести модель из разработки в продакшен, командам разработчиков ML необходимо обучать их на лучших данных с лучшими аннотациями.

Именно поэтому у любой компании, занимающейся компьютерным зрением (особенно если она создаёт модели для медицинской диагностики), должен существовать процесс контроля качества аннотаций медицинских данных.

Чтобы структурировать процесс контроля качества аннотаций изображений, необходимо реализовать процессы, гарантирующие, что размеченные изображения имеют максимально высокое качество. Когда дело касается аннотирования медицинских снимков (например, в радиологии), при структурировании процесса QA нужно учитывать некоторые дополнительные факторы. Если вы учтёте эти тонкости при создании процесса и подготовите каркас для процесса до начала аннотирования, то сэкономите время на дальнейших этапах разработки модели.

Так как для аннотирования медицинских снимков требуются специалисты в медицине, аннотирование может стать затратной частью создания медицинских моделей AI. Наличие готового процесса QA для аннотирования изображений до начала разработки модели поможет компании соответствующим образом планировать бюджет и снизить риск пустой траты времени аннотатора и средств компании.

Шаг 1: выбор и разделение массивов данных

Медицинские модели необходимо обучать на огромных объёмах данных. Компании нужно обеспечить поток высококачественных обучающих данных, внимательно следя за количеством и типами данных, которые требуются модели для точного выполнения её задачи. Например, некоторые виды опухолей встречаются реже других, однако модель должна уметь распознавать редкие опухоли, встретив их на реальных снимках, поэтому данные должны содержать достаточное количество примеров таких опухолей для их точной классификации.

Прежде чем приступать к созданию процесса QA, от общего массива собранных данных нужно отделить часть. Эта часть станет тестовыми данными — данными, которые модель никогда раньше не видела; их вы будете использовать после этапов обучения и валидации, чтобы определить, соответствует ли модель пороговым значениям точности, чтобы её можно было использовать в клинических условиях. Эти данные должны быть физически недоступны для команд машинного обучения или дата-инжиниринга, потому что когда настанет время получения разрешения надзорных органов, компании придётся проводить клинические испытания, а для этого потребуются нетронутые данные, которые не видела модель и над которыми никто не работал. В идеале эти тестовые данные следует скопировать на отдельный жёсткий диск и хранить в отдельном физическом местоположении, чтобы облегчить бремя доказательства комплаенса во время процесса утверждения надзорных органов.

При создании моделей для медицинских снимков необходимо тщательно продумать количество и типы аннотаций, необходимых для обучения модели. Допустим, в случае редких опухолей нужно решить, сколько примеров нужно разметить, как часто аннотаторы должны их размечать и как аннотаторы будут их категоризировать.

У вашей компании может быть доступ к миллионам маммограмм или снимков КТ, но в реальности у медицинских специалистов не будет времени на разметку всех этих элементов данных, поэтому вам придётся принимать решение о том, как составлять график процесса аннотирования.

Для этого необходимо будет определиться с объёмом репрезентативных данных и разделить эти данные на наборы для обучения и валидации. Однако перед разделением данных нужно решить, сколько раз должен быть размечен каждый элемент данных. Вычислив консенсусное мнение, вы гарантируете, что моделирование выполняется не по результатам работы одного аннотатора.

Шаг 2: подготовка к аннотированию слепым методом

В области медицинской визуализации одной разметки недостаточно. Изображения должны быть размечены несколько раз разными разметчиками, аналогично тому, как в клинической практике снимки изучаются несколькими врачами. В большинстве европейских и североамериканских стран стандартной практикой является двойная проверка: каждый медицинский снимок изучают не менее чем два радиолога.

Ваш набор для валидации должен быть размечен минимум дважды. Это значит, что разные аннотаторы должны будут размечать один и тот же элемент данных. Более того, может понадобиться многократная разметка одних и тех же данных. Благодаря этому вы сможете вычислить степень согласованности между разметчиками и мнениями отдельного разметчика. Разумеется, оплата труда множества разметчиков стоит дорого, потому что эти аннотаторы являются специалистами в медицине (обычно радиологи) с солидным опытом работы.

Подавляющее большинство данных, скажем, 80%, будет относиться к обучающему массиву данных. Временные и финансовые ограничения, связанные с аннотированием медицинских снимков, обычно приводят к тому, что обучающие данные часто размечаются только один раз, что позволяет модели начать обучение быстрее и дешевле.

Однако оставшиеся данные, составляющие набор для валидации, будет использоваться для оценки точности модели после завершения её обучения. Большинству компаний следует стремиться к обеспечению дополнительной разметки для валидационных данных. Аннотирование каждого изображения, скажем, пятью аннотаторами, обеспечит наличие достаточного количества мнений, гарантирующее корректность прогнозов модели. Чем больше мнений у вас есть, тем меньше модель будет перекошена в сторону мнения конкретного радиолога и тем лучше она будет обобщаться на данные, которые она раньше не видела.

С таким разделением труда следует определиться при создании конвейера аннотирования. Аннотаторы не знают, сколько раз будет размечен элемент данных, и в идеале разметка всегда должна происходить слепым образом. Они не должны говорить друг с другом и обсуждать данные. При работе в лечебном учреждении такую конфиденциальность гарантировать можно не всегда, однако при работе с распределённой группой радиологов условия двойного слепого метода соблюдается полностью.

Шаг 3: создание протокола аннотирования изображений

Теперь, когда вы собрали и разделили данные, нужно создать протокол разметки для радиологов.

В протоколе разметки должны быть представлены инструкции по аннотированию важных элементов снимков — опухолей, уплотнений, лимфоузлов. Корректный способ разметки этих структур выбрать не всегда просто, часто приходится идти на компромисс между тем, что происходит при клинических процедурах и тем, что необходимо для обучения в машинном обучении.

Допустим, у вас есть снимок масс, например, уплотнения в грудной клетке. Это уплотнение может быть круглым, но может иметь и звездообразную форму. Аннотатору нужно знать, должен ли он аннотировать уплотнение кругом или близко повторять его контур. Это решение зависит от того, что система AI должна будет делать в клинических условиях. Если вы обучаете систему, которая будет распознавать только наличие уплотнений, то может быть достаточно нестрогой формы аннотации. Однако если система будет пытаться распознавать уплотнения различной формы, то вам, вероятно, придётся очень тщательно сегментировать их, аккуратно повторяя контур. Часто уплотнения неправильной формы склонны проявлять признаки более агрессивных видов рака, поэтому машине определённо нужно иметь возможность идентифицировать их.

Ещё одним примером является кальцификация, которая на медицинских снимках выглядит как крупицы соли. Как её аннотировать? Прямоугольником вокруг всех крупиц? Кругами вокруг каждой крупицы? Один большой прямоугольник будет компромиссом для машинного обучения, потому что содержит и кальцификацию, и здоровую ткань, однако будет неразумно и просить врачей аннотировать сотни мелких точек. В протоколе разметки нужно подробно описать, что должны делать аннотаторы в этой ситуации. То же самое относится к выявлению на снимке других объектов, например, кардиостимуляторов и грудных имплантов. Если аннотаторы должны размечать эти объекты, то вам необходимо сообщить им об этом.

Протокол разметки должны совместно составлять участник группы разработчиков машинного обучения и специалист с медицинскими знаниями, поскольку специалисты в разных предметных областях воспринимают одинаковые вещи по-разному. Стоит помнить, что врачи не думают, как отличить кардиостимулятор от опухоли. Они имеют многолетний опыт и способность мыслить критически, поэтому им покажется смехотворным, что кто-то может спутать кардиостимулятор с раковой опухолью. Однако модели не могут рассуждать: они могут учиться только тому, на что указывают им метки на медицинских снимках. Часто командам разработчиков ML приходится объяснять это радиологам. В противном случае, врачи могут и не понять, почему важно, что они оставили кардиостимулятор без разметки или разметили уплотнение неправильной формы на одной снимке кругом, а на другом указали его контур.

Объясняйте как можно более прямолинейно и исчерпывающе. Аннотирование — монотонная и долгая задача, поэтому логично, что разметчики будут пытаться облегчить себе работу, если не сказать им не делать этого. Предоставьте им точное, но не слишком длинное руководство по протоколу разметки. Добавьте в него несколько изображений хороших и плохих аннотаций как примеры того, как нужно и не нужно делать. Затем устройте им онбординг на вебинаре, на котором покажите примеры и демо платформы аннотации, чтобы разметчики знали, чего ожидать и как выполнять аннотацию на платформе.

Без подробного протокола разметки разметчики могут создавать несогласованные метки. Распространённая ошибка — перепутать лево и право, когда их просят аннотировать конкретную структуру, например, «разметьте левое лёгкое». А аннотации нестрогой формы — круг вместо контура — часто возникают просто по привычке.

Шаг 4: практика аннотирования медицинских снимков на нескольких примерах

Снимки DICOM содержат множество информации, обеспечивающей наилучшую диагностику пациента. Однако разметка объёмных изображений, например, снимков КТ и МРТ, является сложной задачей.

Метаданные DICOM в Encord

Объёмные изображения содержат множество срезов и их изучение занимает много времени.

Использование подходящих инструментов позволяет аннотаторам выполнить свою работу оптимально и в минимальные сроки. Однако вне зависимости от применяемых инструментов, перед развёртыванием обучающих данных для аннотирования вам следует предоставить каждому радиологу несколько примеров для аннотирования, а затем собрать совещание с ними, в группе или индивидуально, чтобы обсудить результаты.

Совместно с клиническими специалистами проверьте эту выборку примеров, чтобы определить, достигли ли метки высокого качества, необходимого для обучения моделей и алгоритмов машинного обучения. Сравнивайте выборки данных между собой, чтобы определить, существенно ли выше/ниже качество работы одного аннотатора по сравнению с другими. Ответьте на следующие вопросы: размечает ли один аннотатор меньше структур, чем остальные? Отрисовывает ли кто-то произвольные ограничивающие прямоугольники? Небольшие вариации допустимы, однако если результаты одного аннотатора существенно отличаются от результатов других, то стоит встретиться с ним один на один, чтобы обсудить ожидаемое качество.

Даже при наличии протокола разметки внимательное изучение этих нескольких примеров позволяет выявить различия в мыслительном процессе специалистов ещё до того, как они приступят к обработке больших объёмов данных. Помните, что врачи думают как врачи. Если на снимке пациента выявлено 13 раковых опухолей в печени, врач может разметить кругами только семь, потому что в клинической практике этого было бы достаточно, чтобы понимать, что у пациента рак и ему требуется лечение. Однако командам разработчиков машинного обучения нужно гарантировать, что врач разметит все 13 опухолей, поскольку когда модель встретит шесть неразмеченных, отсутствие меток пойдёт во вред. Отсутствующие аннотации сделают невозможной истинную оценку точности модели, поэтому командам разработчиков машинного обучения нужно помочь врачам понять, почему им необходимо выполнять исчерпывающую разметку, на которую тратится больше времени и которая отличается от их повседневной клинической работы.

У разных аннотаторов могут быть разные пороговые показатели того, что должно аннотироваться, поэтому вам будут необходимо мнение партнёра с клиническим опытом, чтобы определить, что должно было аннотироваться. При оценке медицинских снимков всегда присутствует неопределённость, поэтому вам придётся «калибровать» аннотаторов, давая им понять, что нужно быть более или менее восприимчивыми к их пороговым показателям.

Шаг 5: выпуск первой партии изображений для разметки в инструменте аннотирования

После того, как все радиологи поймут ожидания от разметки, настанет время выпуска первой партии изображений для аннотирования. В первой партии следует выпустить примерно треть данных, которые нужно аннотировать.

Установите график выполнения аннотаций. График зависит от временных ограничений вашей компании. Например, если вам нужен результат до начала конференции, то требуется обучить модель быстрее, а график аннотирования сделать более сжатым.

Участник команды разработчиков машинного обучения и партнёр с клиническим опытом должны руководить процессом аннотирования и контролировать его результаты. Это значит, что нужно выделить время и для контроля качества. Проверка аннотаций занимает время, и в идеале стоит отслеживать качество разметки каждого аннотатора, чтобы у вас была еженедельная или ежемесячная статистика, демонстрирующая, как каждый радиолог размечал изображения по сравнению с эталоном или консенсусом.

При аннотировании медицинских снимков для создания эталонных данных требуется поиск информации о результатах лечения пациентов, что может оказаться сложной задачей. Например, если три врача посчитали уплотнение на снимке доброкачественным, однако позже биопсия выявила, что оно злокачественное, то эталонной информацией для этого снимка будет «злокачественное». В идеале, при сборе данных вы будете получать клинические данные вместе со снимком DICOM, предоставляющим информацию о лечении пациента и его результатах после сканирования, что позволяет выявлять эталонные данные на основании реальных результатов.

В случае, если такая клиническая информация недоступна, заменой эталонной информации будет служить консенсус, полученные из аннотаций. Консенсус возникает, когда группа радиологов изучает один снимок и приходит к согласию о выводах, обычно способом мажоритарного голосования. Затем эти выводы используются в качестве эталонной информации для данных.

Однако в клинических условиях врачи приходят к консенсусу иначе. Именно поэтому большинство платформ по разметке предоставляет множество функций для вычисления консенсуса, в том числе голосование с учётом клинического опыта для любого количества аннотаторов. Также у платформ есть функция учёта весов: аннотациям более опытного медицинского специалиста будет придано большее значение, чем менее опытного. Когда возникают разногласия относительно снимка, платформа предоставляет панель арбитража, в которой снимок отправляется дополнительному, более опытному специалисту для создания консенсуса. Наличие разнообразных подходов, встроенных в систему, особенно полезно для процесса утверждения нормативными органами, поскольку в разных странах компании должны будут использовать разные методики для определения консенсуса.

В эту часть процесса QA также следует встроить тест оценки надёжности аннотатора, при котором каждый проверяющий получает набор данных, содержащий многократно повторяющийся снимок. Задача этого теста заключается в проверке постоянства качества работы проверяющего. Этот постоянный мониторинг оценивающих отвечает на важные вопросы, в частности: качество работы проверяющего так же высоко утром, как и вечером? Качество работы проверяющего хуже в выходные по сравнению с рабочими днями?

Процессы утверждения нормативными органами для выпуска модели в клиническую среду требуют данных о степени надёжности каждого проверяющего, а также надёжности между проверяющими, поэтому важно с самого начала встроить этот тест в рабочий процесс и выделить бюджет на него.

Шаг 6: выпуск оставшейся части данных для аннотирования и реализация непрерывного мониторинга разметки

Если проверка первой партии аннотаций прошла успешно, то настало время для передачи аннотаторам оставшейся части данных. В общем случае, если существует строгий график или конкретный объём данных, то компания выпускает оставшиеся данные отдельными партиями и устанавливает дедлайны на разметку каждой партии. В противном случае, большинство компаний реализует непрерывный поток разметки. Когда компания имеет доступ к входящему потоку данных от различных поставщиков, наилучшей стратегией является непрерывный поток разметки.

Непрерывные потоки разметки требуют непрерывного мониторинга разметки, а непрерывный мониторинг разметки — это отличная методика, предоставляющая интересные и важные выводы о разметке и самих данных.

Инструмент аннотирования DICOM платформы разметки предоставляет командам разработчиков машинного обучения доступ к важным метаданным, которые могут влиять на аннотации и параметры прибора. Данные DICOM содержат информацию о состоянии прибора — электрическом напряжении, дозе рентгеновского излучения, угле относительно пациента, температуре окружающей среды и так далее. Команда также может разбивать данные по стране, стоимости и поставщику.

Вся эта информация важна, поскольку она влияет на внешний вид снимка, то есть метаданные влияют на точность модели. Например, если разметчики систематически ошибочно размечают снимки определённого поставщика или лечебного учреждения, то команды разработчиков машинного обучения могут прийти к выводу, что качество изображения с этого прибора не так высоко, как качество изображения из других источников, или что на изображения, сделанные в конкретный день, повлияла неверная настройка прибора.

Снимок одного поставщика может сильно отличаться от снимка другого. Если у них есть только 10% устройств с приборов Siemens, то они знают, что им нужно будет собрать дополнительные снимки с приборов Siemens, чтобы гарантировать, что модель сможет обеспечить высокое качество прогнозов для снимков, сделанных на этой марке приборов. То же самое относится к медицинским снимкам, сделанным на новых и старых моделях устройств.

Влияет и географическое положение. Производители настраивают свои устройства на основании того, где они будут использоваться; например, настройки контрастности для США и Европы отличаются. Использование снимков из разных географических точек и от разных производителей поможет вам бороться с перекосами в модели машинного обучения и гарантировать, что она обобщается должным образом.

Непрерывные разметка и мониторинг — это последний из этапов построения процесса контроля качества в разметке данных медицинских снимков. Рабочий процесс кажется очень детальным, однако при некачественной его реализации при аннотировании медицинских снимков возникает удивительно много распространённых ошибок.

Чтобы создать инструмент для медицинских аннотаций, нужно понимать медицинских специалистов

Существует шесть одинаково важных шагов по структурированию процесса контроля качества для аннотирования медицинских снимков:

  1. Выбор и разделение массива данных
  2. Подготовка к аннотированию слепым методом
  3. Создание протокола разметки
  4. Практика аннотирования медицинских снимков на нескольких примерах
  5. Выпуск первой партии изображений для аннотирования
  6. Выпуск оставшейся части данных для аннотирования и реализация непрерывного контроля разметки

Однако для структурирования процесса контроля качества в аннотировании изображений столь же важно иметь подходящий инструмент, соответствующий повседневной работе медицинских специалистов.

Инструмент аннотирования должен разрабатываться в сотрудничестве с клиническими специалистами, чтобы он позволял профессионалам взаимодействовать со снимками точно так же, как это происходит в их клиническом рабочем процессе. Радиологи и другие медицинские специалисты — это занятые люди, потратившие многие годы на получение опыта и навыков в своей предметной области, поэтому необходимо, чтобы инструмент был для них привычен.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале “Роман с данными”

  • Как подготовиться к сбору данных, чтобы не провалиться в процессе?
  • Как работать с синтетическими данными в 2024 году?
  • В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Обо всем этом читайте в “Роман с данными”

Начать дискуссию