Математика на страже жизней, или Любознательность спасет мир
31.08.2020

В чем важность социальных проектов, основанных на данных? Как подготовить себя к участию в таких проектах? Какие качества помогут преуспеть в анализе данных? Своим мнением делится Виктор Кантор, Chief Data Scientist компании «МТС», преподаватель МФТИ и Coursera, участник рейтинга Forbes 30 under 30 в категории «Наука и технологии».

Возможность изменить мир

Социальные проекты на основе данных — хорошая возможность понять, что мощь Big Data и Data Science может быть направлена не только на достижение краткосрочного экономического эффекта. Приложений здесь масса: здравоохранение, образование, благотворительность, поисково-спасательные работы и многое, многое другое.

Весьма показательный конкретный пример — построение модели для детектирования людей на снимках с квадракоптера для «Лизы Алерт». Детектирование объекта на снимке — стандартная задача компьютерного зрения, но в этом случае ее усложняют ряд обстоятельств: местность может быть очень разной, и далеко не всегда в принципе реально найти решение. При этом польза от распознавания изображений измеряется не заработанными деньгами, а человеческими жизнями. Не стоит, конечно, думать, что коммерческое применение компьютерного зрения не может спасать жизни: контроль соблюдения гигиенических норм работниками пищевых производств, контроль соблюдения норм безопасности на любом тяжелом производстве или стройке, в конце концов точное диагностирование заболеваний по снимкам — все это тоже очень даже помогает людям. И все же социальные проекты мотивируют специалистов по анализу данных по-особенному — дают почувствовать, что такие технологии и алгоритмы могут менять мир.

Очень здорово социальные проекты, основанные на данных, получаются у лидеров ИТ-индустрии. Взять тот же индекс самоизоляции на главной странице «Яндекса». Может показаться, что там нечего делать: проверить, что геолокация у человека не меняется, — и всё. На самом деле, когда начинаешь прописывать в правилах, что же означает «геолокация не меняется», когда начинаешь учитывать разный масштаб характерных расстояний в городах разного размера, когда на все это накладывается проблема пропущенных и неточных данных, возникает весьма нетривиальная задача фильтрации и обработки логов геоданных. Разумеется, лучше всего с ней могут справиться специалисты, регулярно сталкивающиеся с похожими проблемами в своих сервисах.

Какие специалисты нужны

Поэтому прежде чем спасать человеческие жизни и менять мир, неплохо бы научиться в принципе работать с данными. И здесь кроется главная, на мой взгляд, опасность для социальных проектов, основанных на данных, и в целом для области Data Science. Ажиотаж вокруг нее настолько велик, что уже мешает учиться по-настоящему. Огромное количество курсов, обещающих успешное трудоустройство в Data Science через три месяца, множество историй успеха и разогретый баснословными зарплатами рынок — все это подталкивает начинающих ухватить хоть какие-то знания и скорее бежать устраиваться на работу и монетизировать едва усвоенные азы.

Сказывается и вечное стремление людей сравнивать свои и чужие достижения. Многие спешат «не отстать» от друзей и перепродают свой опыт как можно чаще и дороже, переходя в новые компании. За всей этой суетой теряется главное — умение работать с данными. Подавляющее большинство специалистов по Data Science великолепно существовали бы без постановки им целей и вообще без какого-либо управления — но ничего хорошего в этом нет. По моей субъективной оценке, 90% людей в отрасли вообще не задаются вопросом, зачем анализировать данные и строить какие-то прогнозные модели. Достаточно того, чтобы это был интересный для них процесс. Почему? Все просто: очень немногие команды удосуживаются оценить до старта проекта, что он принесет. В процессе ведения проекта редко кто уточняет эти оценки, а также ставит задачи и выстраивает работу так, чтобы с большей вероятностью принести пользу бизнесу.

Все это сродни предпринимательству. Есть люди, которые сразу бегут запускать бизнес, искать инвестиции, нанимать людей, арендовать дорогой офис — в общем, делают множество безрассудных шагов. А есть другие — те, кто тщательно формирует список гипотез, продумывает варианты работы компании и определяет ценности, которые она может создавать, проверяет наличие потребности у будущих клиентов и оценивает потенциальный объем будущего рынка. Лишь после этого они делают минимальный жизнеспособный продукт (MVP) и тестируют его на первых клиентах, уточняют бизнес-модель и, получив подтвержденные экспериментами финансовые оценки, окунаются с головой в расширение бизнеса. Так же и в работе с данными: есть люди, которым лишь бы что-то анализировать, а переделать можно хоть десять раз. А есть специалисты, которые продумывают, планируют свою работу и выполняют ее хорошо сразу или почти сразу. Вот такие эксперты сейчас в огромном дефиците. И беда в том, что без них невозможно сделать удачный проект. Это верно и в бизнесе, и в социальных проектах. Так что если сама по себе Data Science в рекламе не нуждается, то в рекламе очень нуждается ответственный подход к ее освоению и применению.

Не позволить раздувать пузырь

Чтобы побороть эту глобальную проблему нехватки профессионалов и избытка поверхностных специалистов в отрасли Data Science, не позволить нашей области превратиться просто в пузырь, важно еще со школы формировать у будущих экспертов по анализу данных правильные ценности в вопросах образования и работы. Фокус внимания учащихся должен быть не на формальном получении высоких оценок и не на сиюминутном извлечении выгоды из каких-то базовых знаний, а в глубоком понимании материала. Область Data Science стоит на фундаменте из математики и программирования, но как быть, когда фундаментальную математику человек не понял, потому что, как любят шутить некоторые, «в жизни математика нужна только учителям математики»? Разумеется, у него возникнут серьезные проблемы с пониманием работы алгоритмов, со способностью их дорабатывать, «чинить», когда что-то сломалось, и использовать творческий подход.

Важно, чтобы преподаватели давали актуальные примеры использования знаний по своему предмету, а ученики — находить эти примеры самостоятельно. Например, в вузах на занятиях по линейной алгебре изучают сингулярное разложение матриц. А вот если бы студенты вовремя услышали (или нашли сами в поисковиках или «Википедии»), что это не просто какое-то там разложение, а инструмент, с помощью которого в современных стриминговых сервисах пользователю персонально рекомендуют интересные фильмы, — тема заиграла бы новыми красками.

Разумеется, лучше всего будет, если такие длинные взаимосвязи станут выстраивать составители школьных и университетских программ. Но готовность учащегося не только полагаться на автора учебной программы и преподавателя, но и самостоятельно «вести расследование» в отношении того, что и зачем нужно и как оно связано с реальным миром, — очень полезный навык.

Чего не хватает слабым специалистам в области анализа данных, да и во многих других областях ИТ? Наверное, именно этой любознательности и склонности искать взаимосвязи. И конечно — трудолюбия и готовности систематично работать на долгосрочный результат.

Больше информации об интересных событиях, тенденциях и фактах в сфере цифровой экономики, мнений экспертов, а главное — ярких рассказов о решениях на основе данных в социальной сфере, здравоохранении, культуре, образовании, благотворительной и волонтерской деятельности, читайте в новом проекте «DobroData. Данные на службе добра». Пусть тех, кто умеет делать мир лучше, станет больше! Возрастная маркировка: 12+