Данные для медицины: естественный язык vs структурированные галлюцинации

Пандемия коронавируса дала сильный импульс развитию медицинских информационных технологий, и проблема доступа к большим медицинским данным получила шанс сдвинуться с мертвой точки. Состояние отечественного рынка данных здравоохранения, отраслевые кейсы применения аналитики и технологий искусственного интеллекта, а также ситуацию с доступом к медицинским данным и нормативным регулированием повторного использования обезличенных данных для машинного обучения эксперты обсудили на форуме BIG DATA 2021, проведенном издательством «Открытые системы». Кульминацией тематической сессии стал круглый стол «Качественные медицинские данные для ИИ-решений: где их взять?», организованный при поддержке Ассоциации «Национальная база медицинских знаний».

Сырьевая база

Медицинские данные стали, с одной стороны, отдельным объектом инвестиционного интереса для технологических компаний, а с другой — «топливом» для развития рынка систем искусственного интеллекта. И максимальная вероятность толкового их применения в ближайшем будущем сосредоточена в наиболее привлекательных для инвесторов направлениях: сервисы для пациентов, телемедицина и, конечно, искусственный интеллект.

В числе самых многообещающих областей применения искусственного интеллекта в здравоохранении — предсказательная аналитика, включающая решения по прогнозированию возникновения эпидемий, нехватки лекарств и нежелательных событий в организме конкретного пациента. «Мы научились использовать большие данные для сокращения неэффективных затрат на оказание медицинской помощи», — сообщил директор по развитию проекта Webiomed Александр Гусев, представляя участникам BIG DATA 2021 обзор рынка искусственного интеллекта для здравоохранения. По его мнению, два главных вызова для этого рынка в России — особый правовой статус стартапов в сфере больших данных и искусственного интеллекта, а также развитие национальной платформы, которая позволит собирать медицинские данные, предоставлять доступ к ним доверенным компаниям и осуществлять государственный надзор в этой чувствительной сфере. Планы создания такой отраслевой федеральной платформы искусственного интеллекта, основой которой станет защищенный банк обезличенных медицинских данных, были недавно анонсированы Минздравом. Разработчики рассчитывают, что в процессе реализации этого проекта основные проблемы, связанные с использованием больших данных в медицине, будут решены.

К 2020 году медицинские информационные системы внедрили 82% медицинских организаций России. И хотя 80% информации в электронных медкартах хранится в неструктурированном виде, с ней вполне можно работать с помощью технологий обработки текста на естественном языке (Natural Language Processing, NLP). По мнению Гусева, основные сложности на пути развития российского рынка «умных» решений для медицины создает неурегулированный оборот обезличенных медицинских данных и отсутствие понятной схемы возврата инвестиций в это рискованное направление.

Закон на подходе

Между двумя нежизнеспособными крайностями «данные должны быть доступны всем» и «данные не должны быть доступны никому» лежат компромиссные варианты порядка обращения обезличенных данных, пока еще не оформленные юридически. Медицинские данные выделены в специальную категорию особо чувствительных данных и не могут обрабатываться без согласия субъекта даже в обезличенном виде. Как сообщила Александра Орехович, директор по правовым инициативам ФРИИ, поправки, предусмотренные законопроектом об обезличенных персональных данных, который сейчас готовится ко второму чтению, дают надежду, что вопрос доступа к данным с целью разработки систем искусственного интеллекта вскоре будет урегулирован. Доступ будет предоставляться в определенном порядке определенным категориям организаций, которые соответствуют определенным требованиям. Но никакой конкретики в отношении этого порядка, категорий и требований пока нет — ясность появится только вместе с подзаконными актами. Когда будут выпущены проекты документов с правилами обезличивания данных и правилами доступа к ним, тогда и развернется по-настоящему острая дискуссия на эту тему.

Сегодня, когда одновременно идут процессы усиления защиты данных и полной открытости цифрового следа, настало время поднять вопрос о донации данных, полагает Борис Зингерман, гендиректор ассоциации «Национальная база медицинских знаний». «Сделать донацию данных легче, чем донацию крови, а пользы от нее тоже можно получить немало, — подчеркнул он. — Я с удовольствием поделюсь своими данными для науки, и таких пациентов будет немало».

Три диагноза от искусственного интеллекта

Интересный пример полезного использования данных о первичных приемах пациентов, накопленных в столичной системе здравоохранения, привела первый заместитель начальника Управления заместителя мэра Москвы по вопросам социального развития Юлия Урожаева. Она рассказала о системе поддержки принятия врачебных решений на основе искусственного интеллекта, которая с октября прошлого года работает во всех взрослых поликлиниках города. Для обучения нейросети, которая была разработана и откалибрована при помощи специалистов лаборатории искусственного интеллекта Сбера, использовали уникальную методологию разметки данных, сообщила Урожаева. Около 95% случаев обращения в поликлинику связано с одним из 265 диагнозов. На них и сосредоточились разработчики.

Проанализировав анамнез и введенные врачом жалобы пациента, система подсказывает три наиболее вероятных предварительных диагноза, а затем подбирает стандартные пакеты инструментальных и лабораторных исследований для подтверждения диагноза или его опровержения. К настоящему времени с помощью системы проведено около 4 млн амбулаторных приемов, и в 70% случаев выбор врача совпадает с предложением нейросети. Систему продолжают дорабатывать и обучать, пополняя новыми данными и диагнозами и повышая точность ее работы.

Свое выступление Урожаева завершила приглашением к сотрудничеству. «Очень ждем нестандартно мыслящих людей для разработки следующих продуктов», — обратилась она к участникам форума.

Видеть цель

Поиск качественных медицинских датасетов сродни добыче золота или алмазов, требующей переработки тонн пустой породы. Поиском редких данных в различных источниках и организациях занимаются специальные компании, и эти изыскания не всегда успешны. Качественный датасет получается, когда исследователь четко знает, какие данные и с какой целью собираются. Например, это происходит при написании диссертации. Но создать качественный универсальный датасет для абстрактных целей невозможно, уверен Зингерман.

«При использовании публичных датасетов, которые непонятно как собраны, приходится проводить процедуру кросс-разметки данных нашими врачами», — подтвердил операционный директор компании «Цельс» Никита Николаев. По его словам, качественных медицинских данных на сегодняшний день мало. Однако если качественно отстраивать процедуры разметки данных, можно повысить и точность решений, построенных на их основе. Николаев поделился опытом по оптимизации затрат на разметку медицинских изображений с помощью псевдо- и кросс-разметки, а также результатами эксперимента по привлечению к процедуре разметки маммограм силами сообщества «Яндекс.Толока». Эксперимент показал, что люди, размечающие снимки для обучения ИИ, находили рак не менее точно, чем врачи.

Накопленные к настоящему времени массивы ценнейших медицинских данных очень плохо структурированы, так как при их создании не учитывались цели последующего ретроспективного анализа, отметил Николай Павлов, CDO НПЦ «Радиология Москвы». Но те данные, которые начинают накапливаться сегодня, эти цели уже учитывают.

«Российское здравоохранение находится в двух шагах от того, чтобы перейти к медицинской аналитике на основе первичных данных, — полагает Игорь Башков, коммерческий директор «Нетрика Медицина». — В 2020 году COVID всех к этому подстегнул».

Так, многие регионы организовали автоматическое формирование регистров заболевших коронавирусом и оперативную передачу первичных данных о заболевших на федеральный уровень в структурированном виде. Это лишь одна из множества задач, которые «Нетрика Медицина» помогает решать региональным управленцам, интегрируя данные из 70 медицинских информационных систем различных организаций.

На распутье: NLP или cтруктурированная галлюцинация?

Структурированные или неструктурированные данные — важная развилка на пути дальнейшей цифровизации российского здравоохранения. Как отметил Павел Пугачев, заместитель министра здравоохранения РФ, идти по пути структурированных электронных медицинских документов (СЭМДов), добиваясь перехода всех медицинских организаций на единый формат — правильно, но долго, хотя этот подход прекрасно себя показал в ряде регионов, где интероперабельность и обмен данными с федеральным сегментом Единой государственной информационной системы здравоохранения обеспечивается с помощью СЭМДов. «Мы будем двигаться по этому пути, но нельзя отбрасывать и неструктурированные данные», — подчеркнул он. По мнению Пугачева, сегодня недостаточно проектов, которые работают с неструктурированными текстами и результатами анализов, между тем это направление может стать прорывным. В нем следует создавать заделы и реализовывать сервисы для медработников.

Главное предназначение медицинских данных — обеспечивать оказание медицинской помощи и преемственности лечения. Возможность последующего анализа данных — дополнительный бонус, ради которого далеко не всегда можно заставлять врачей заполнять сложные длинные формы. Иногда это слишком долго и дорого обходится. К тому же опыт показывает, что данные из неструктурированных источников зачастую оказываются даже более качественными.

Гусев поделился историей, когда по настоянию заказчика разработчики сделали форму врачебного осмотра, включавшую почти тысячу полей. Заполнение данных осмотра одного пациента стационара занимало 40 минут. Неудивительно, что врачи сразу переходили в конец формы, меняя лишь несколько полей и оставляя остальные шаблонными. «В итоге на выходе получилась очень качественно подготовленная и прекрасно машино-обрабатываемая… галлюцинация», — констатировал Гусев. Эксперимент подтвердил, что абсолютная формализация в реальной медицинской практике невозможна, и имеет право на жизнь разве что в клинических исследованиях. А в клинической практике более применим подход, сочетающий заполнение текстом крупных блоков структурированных документов, и последующее извлечение информации из них с помощью NLP-технологий.

Чем сложнее экранная форма, тем менее достоверны данные, ее заполняющие, согласен Пугачев. Он, в свою очередь, привел пример неудачной попытки наполнить регистр больных ковидом подробнейшими данными о хронических заболеваниях, в результате которой получили множество пациентов, у которых вообще отсутствовали хронические заболевания. Лишь когда в регистре оставили только группы хронических заболеваний, качество его данных существенно повысилось. Для повышения качества данных также важно использовать данные, поступающие с анализаторов, носимых устройств и предоставляемые самими пациентами. К примеру, при вакцинации заполняемость дневников наблюдения на портале госуслуг оказалась существенно выше ожидаемой, а этот формат дает возможность не только собрать дополнительные сведения, но и разгрузить врачей при сборе анамнеза.

«Нам нужен спрос на датасеты для создания сервисов на основе искусственного интеллекта, чтобы иметь возможность внутренней приоритизации, выстраивания процессов разметки, создания эталонных датасетов и их предоставления вовне, — заявил Пугачев. — Мы хотим поддерживать именно российских разработчиков и готовы выстраивать с ними коммуникации». Удачный опыт НПЦ «Радиология Москвы» по тестированию ИИ-решений, по его мнению, нужно расширять, и не только на анализ медицинских изображений.