Разработанный в Германии алгоритм способен определять потенциальные онкогены, в том числе в ситуации, когда их ДНК не изменена. Команда немецких ученых проанализировала большой объем данных при помощи искусственного интеллекта и таким образом смогла идентифицировать множество новых онкогенов. Это открывает новые перспективы для разработки таргетной терапии в персонализированной онкологии, а также в изучении новых биомаркеров.
Коллективу исследователей отдела молекулярной генетики Института Макса Планка (Берлин) и Института компьютерной биологии Центра Гельмгольца (Мюнхен) удалось разработать новый алгоритм на основе технологии глубокого машинного обучения, и определить с его помощью 165 прежде неизвестных онкогенов. При этом нуклеотидная последовательность в этих генах не обязательно должна быть изменена – по-видимому, не только полноценная мутация, но даже и дисрегуляция работы этих генов может приводить к онкологическим заболеваниям. Все обнаруженные гены продемонстрировали тесную связь во взаимодействии с уже известными онкогенами; по результатам экспериментов с клеточными культурами, эти онкогены являются эссенциальными для выживания опухолевых клеток.
Алгоритм под названием EMOGI (Explainable Multi-Omics Graph Integration) также частично объясняет сложные взаимоотношения между различными клеточными механизмами, а также ряд факторов, которые делают обычный ген онкогеном. В ходе обработки данных были проанализированы десятки тысяч датасетов пациентских образцов. Они содержали информацию не только об активности генов, но и о ДНК-метилировании, а также о взаимодействии между различными белками. Алгоритмы глубокого обучения (deep learning) находили взаимосвязь между этими активностями и формированием опухолевых клеток.
Крайне важной особенностью этой работы стало то, что в ней оценивались не только мутации в онкогенах, но и изменения их активности без структурных изменений ДНК (например, в результате эпигенетических взаимодействий).
Результаты исследования добавляют значительное количество новых объектов в список "подозреваемых" онкогенов, число которых за последние годы выросло до 700-1000. Такие работы возможны только благодаря комбинированному подходу биоинформатики и методов искусственного интеллекта. Авторы работы отмечают, что программа EMOGI не ограничена исследованиями в онкологии и теоретически может быть применена для анализа данных о других комплексных заболеваниях.