Почему у медицинских данных длинный «хвост», с какими неожиданностями столкнулись разработчики медицинского искусственного интеллекта, какую роль сыграл в жизни молодой питерской компании эксперимент «Радиологии Москвы» и о каком дата-сете пока можно только мечтать, рассказал номинант на премию Data Award 2022 Евгений Никитин, начальник департамента ML-разработки компании «Цельс». На основе машинного обучения в «Цельсе» разрабатывают системы анализа медицинских изображений, помогающие рентгенологам, которых сейчас катастрофически не хватает в российских регионах, работать быстрее и пропускать меньше патологий на снимках.
- Как вы пришли в data science?
С детства хотел заниматься математикой, но не теоретической, а прикладной. Поэтому сначала получил образование по специальности «математические методы в экономике» в Санкт-Петербургском университете экономики и финансов. Затем в магистратуре в Англии занимался математическим моделированием человеческой памяти и внимания, потом в аспирантуре в США — машинным обучением для анализа политического поведения людей в социальных медиа. Параллельно занялся бизнесом — разрабатывал модели кредитного скоринга для финансовых организаций.
- Как же родилась идея работы с медицинскими данными? С чего начался проект «Цельс»?
Звезды так сложились. Мы с партнером познакомились с ребятами из калужской ИТ-компании, которым была очень интересна тема MedTech, но у них не было компетенций в сфере машинного обучения. На стыке их возможностей и наших компетенций осенью 2018 года попробовали сделать минимально жизнеспособный продукт (minimum viable product, MVP). Сначала задача была поставлена очень абстрактно: сделать то, что поможет обнаруживать рак молочной железы. Помимо пары публичных дата-сетов по маммографии для обучения модели, у нас была только выборка снимков, по которым уже был известен диагноз, поставленный пациенту. Результаты, полученные на тот момент, показались удивительными врачам, которым мы их показали. Это всех обнадежило. Мы поняли, что можем сделать нечто полезное, и решили развивать продукт дальше.
- Какими были следующие главные вехи проекта?
Мы открыли офис в Санкт-Петербурге и вскоре запустили разработку второго продукта «Флюорография / Рентген легких», а также пилотные проекты, что важно для получения обратной связи.
Очень большой поддержкой для нас оказалась работа, которую проводил в Москве Сергей Павлович Морозов, директор Центра диагностики и телемедицины («Радиология Москвы»). Действительно серьезной вехой стал эксперимент mosmed.ai, в котором прошедшие тестирование компании — разработчики ИИ-решений могут подключаться к клиникам через ЕРИС ЕМИАС, обрабатывать поток исследований реальных пациентов и получать обратную связь. К настоящему моменту три наши системы прошли так называемое калибровочное тестирование в этом проекте и работают полноценно: «Маммография», «Флюорография / Рентген легких» и «Covid-19». Другая наша система, выявляющая рак по КT легких, готова к внедрению, и еще одна, определяющая по КТ кровоизлияние в головном мозге, находится на стадии апробации.
- В этом проекте клиники голосуют, выбирая на определенный период продукт, с которым предпочитают работать. Сколько клиник выбрало ваш продукт?
Всего 102 клиники, больше всего выбрали «Маммографию» — примерно 50–60. Огромная выгода московского проекта — финансирование и одновременно развитие конкурентной среды: многие компании просто не выжили бы без такой поддержки. Второй крайне важный момент: организаторы понимали, что все системы далеко не идеальны, и принимали это. Когда мы приходили в регионы, то чаще всего слышали: «Ребята, это еще сыровато, надо допилить». А тут ставились три цели: во-первых, определить задачи, которые целесообразно и логично решать с помощью машинного обучения; во-вторых, отобрать лучшие решения; и, в-третьих, помочь разработчикам улучшить свои системы. Все эти цели достигнуты, и это очень здорово!
Результаты эксперимента теперь позволяют нам внедрять ML-системы и вне Москвы. В мае 2021 года мы получили регистрационное удостоверение на медицинское изделие, и в ближайшее время наши системы официально начнут работать на уровне нескольких российских регионов. Кроме того, большой проект идет в Узбекистане.
- Что было самым интересным в процессе создания медицинского ИИ?
Разметить изображение, чтобы определить, есть у пациента патология или нет. Поначалу мы не отдавали себе отчета в том, какое количество расхождений будет, если дать один и тот же снимок двум врачам. А ведь это влияет не только на обучение модели, но и на ее оценку. Как доказать, что модель качественная, если существуют пять разных мнений по тому, как размечен снимок?
Начинали, по сути, тыкаясь вслепую, но в итоге построили четкий пайплайн по разметке. Это очень сложный процесс, начиная с того, что врачей надо выбрать по каким-то формальным характеристикам. Оказалось, что квалификация и опыт — не всегда очень хорошие предикторы качественной разметки. Важны и дополнительные характеристики — например, усидчивость и внимательность. В числе факторов, часто и сильно влияющих на качество разметки, — обычная усталость и отсутствие большого монитора с высоким разрешением.
Поэтому сейчас мы много внимания уделяем отбору врачей, которые хотят с нами работать, их обучению и регулярной проверке их работы. В процесс разметки встроен автоматический контроль качества с использованием специального набора снимков и эвристик.
Второе, чему мы научились, — итерационное написание инструкций. Каждый раз, запуская новый проект, сначала пишем первую версию инструкции и просим врачей разметить снимки в соответствии с ней. Затем смотрим, какие есть расхождения и почему они возникают. Например, один специалист отмечает на маммографическом снимке злокачественные кальцинаты, а другой может их не отметить или разметить иначе, не заметив, выбрав другой класс или неаккуратно обозначив контур. Далеко не всегда расхождения означают разные мнения, иногда врачи по-разному интерпретировали инструкцию! То есть большую часть противоречий между оценками врачей можно устранить с помощью качественной инструкции по разметке.
- Какую цель вы ставили перед собой на уровне данных?
Максимально эффективно получить дата-сеты, которые нужны для создания качественных продуктов.
Сначала нам был нужен качественно размеченный набор данных достаточного объема. Теперь, для дальнейшего повышения качества, к дата-сетам предъявляем все больше требований — например, по наличию разных видов и форм рака молочной железы. Сейчас наша задача — пополнять и обновлять дата-сеты, экономя при этом деньги.
Как выяснилось, жизненно необходимо так называемое активное обучение. Специфика медицинских данных в том, что у них очень длинный «хвост». То есть большая часть пациентов здоровы, и лишь в снимках оставшихся 5% встречаются редкие патологии, которые мы очень хотим выявить. Если размечать все подряд, то большую часть времени мы будем делать бесполезную работу: нейросеть уже выучила здоровых пациентов и пациентов с легко детектируемыми патологиями, а мы просто сжигаем деньги, размечая бесполезные для модели снимки.
Поэтому мы сделали «умные» инструменты, которые позволяют отбирать данные на разметку. Когда поступает информация, что врачи освободились, для них в полуавтоматическом режиме по разработанным нами алгоритмам отбирается пул исследований, разметка которых принесет наибольшую пользу.
То есть мы внедрили подходы, позволяющие улучшать готовые продукты, ведь повышать их качество становится все труднее и труднее.
- Какие источники данных использовали?
В некоторых проектах использовали публичные дата-сеты: мы берем по максимуму все, что можно использовать в коммерческих целях. Как правило, это зарубежные наборы данных, но сейчас при поддержке Минздрава РФ идет подготовка публичных дата-сетов для отечественных разработчиков, и мы в ней тоже участвуем.
Второй источник — прямые контакты с медучреждениями и научными центрами. Это выгрузка анонимизированных данных: либо платная из зарубежных институтов, либо (что бывает чаще) в обмен на бесплатное использование нашего продукта в пилотном проекте. И третий крупный источник — поток данных, поступающих в рамках московского эксперимента через радиологический сервис ЕРИС ЕМИАС.
- К вам попадают уже анонимизированные данные?
Да, в 95% случаев. В московском проекте на стороне организаторов стоит модуль для анонимизации. Изредка к нам попадают неанонимизированные данные, тогда перед началом работы мы производим автоматическую анонимизацию.
- Алгоритмы анализа медицинских изображений сейчас пишут многие. Чем отличается ваш подход?
Конкурирующие решения различаются количественными характеристиками: точностью и скоростью работы, числом систем, c которыми могут интегрироваться. К сожалению, в нашей области пока практически нет обмена знаниями. Мы же стараемся пропагандировать такой обмен.
Наша «машина» по разметке медицинских данных — одна из лучших. Отдельная команда работает непосредственно с врачами, контролирует качество разметки и снабжает команду машинного обучения этими данными.
Еще один важный момент: мы уделяем большое внимание скорости проверки идей. Моя роль в компании — обеспечивать правильную настройку процессов и правильный выбор инструментов, чтобы максимально быстро обучать нейросети, тестировать идеи и продолжать улучшать продукты.
У нас всего 15 дата-сайентистов на пять готовых продуктов плюс три в разработке. Поддерживать такую линейку можно только при максимально эффективном использовании ресурсов — то есть автоматизируя все, что можно, и применяя лучшие практики, как процессные, так и инструментальные.
- Есть мнение, что главный потенциал медицинского ИИ — в анализе интегрированных данных о пациенте, а не отдельных исследований. Есть ли намерение развиваться в этом направлении?
Я всегда верил, что будущее — в мультимодальном подходе, когда в систему интеллектуальной обработки данных попадают данные разного типа из разных источников. Например, рентгеновский снимок плюс история снимков для оценки динамики, информация медкарты плюс информация по результатам приема, которая может быть собрана голосом. Моя давняя мечта — достойный дата-сет с мультимодальными данными. При таком подходе можно достичь по-настоящему крутых результатов. Технологии к этому готовы: есть архитектуры нейросетей, позволяющие работать с мультимодальными данными. Но существуют опасения относительно нарушения приватности: чем больше у нас данных о пациенте, тем выше риск их деанонимизации. Тут явно предстоит большая юридическая работа, и, скорее всего, потребуется согласие пациента на такую обработку данных.
Однако в рамках научного сотрудничества с некоторыми клиниками мы пробуем использовать более широкие массивы данных. Например, не только снимок, но и его описание, где врач может упоминать важные аспекты, сильно повышающие риск онкологии, такие как случаи рака в семье пациента. То есть мы уже работаем на стыке изображения и текстовых данных. Но остается нерешенным ключевой вопрос: как обеспечить безопасный доступ к таким данным?
Кроме того, существует инфраструктурная проблема: не очень много клиник, где можно эффективно выгрузить и связать массивы данных; часто результаты осмотра еще пишут от руки. А у коммерческих клиник обычно с инфраструктурой все отлично, но объем данных недостаточен.
- Какие основные ИТ-инструменты применяете?
Разметка данных проводится на российской платформе Supervisely, для хранения данных и разворачивания моделей используем Yandex.Cloud и Kubernetes. Сама разработка ведется на языке Python во фреймворке Pytorch. Чтобы обеспечить воспроизводимость результатов экспериментов (а это очень важно в науке), для обучения и тестирования моделей пользуемся фреймворками с открытым кодом Clear ML и DVC.
- Какими результатами использования систем «Цельса» можете поделиться?
Применение ИИ в медицине пока носит экспериментальный характер. Если сейчас убрать из медицины все ИИ-системы, краха не случится. Чтобы говорить об ощутимой пользе, надо уметь ее измерить, прежде всего оценить экономически. Посчитать, насколько меньше стали тратить денег в здравоохранении, — непростая задача. Сейчас мы сами тратим большие деньги, чтобы понять, меняется ли что-то с точки зрения финансовой эффективности, если у врача появляется наша система.
Однако в московском эксперименте есть примечательные кейсы — например, по обработке КТ-исследований на ковид. Для рентгенолога несложно увидеть знаменитое «матовое стекло», зато много времени требует оценка объема поражения легких, которая может повлиять на решение о госпитализации пациента. Практика показала, что ИИ-система может справиться с этой рутинной задачей, а врачу достаточно проверить, правильно ли все подсчитано. Время на интерпретацию одного исследования по ковиду сокращается на треть!
Кроме того, точечные свидетельства эффективности мы получаем из обратной связи от врачей — они не только сообщают, как наши системы помогают сэкономить время, но и честно признаются в том, что часть патологий могли бы пропустить, если бы система на них не указала. В пилотных проектах по маммографии в Брянске, Тамбове, Калуге, Калининграде и других городах, после пропускания через систему ретроспективных данных, были случаи, когда система обнаруживала рак, пациента направляли на дополнительное обследование и действительно находили злокачественные изменения.
- Какие направления дальнейшего развития проекта вы видите?
Первое глобальное направление — комплексные сервисы. Сейчас методами машинного обучения обычно ищут один определенный тип патологий, например ковид. Следующий важный этап — научиться находить на снимках одного исследования все возможные типы патологий.
Второе — измерить эффект от использования нашей системы по всем правилам научного исследования.
И третье важное направление — автоматизация рутинных задач, например контроля качества. В большом радиологическом исследовании многое может пойти не так — с оборудованием, с расположением пациента. И мы разрабатываем инструменты, которые помогают контролировать качество исследования прямо в процессе его проведения.
Мне кажется, выживут только те компании, которые, организовав работу небольших команд, смогут обеспечить максимальную скорость проверки идей. А ее можно увеличить благодаря автоматизации.