Сложность получения и очистки данных, субъективность моделей и необходимость обеспечения конфиденциальности данных, а также недостаток опыта и технических навыков – вот основные вызовы, с которыми приходится сталкиваться исследователям данных и инженерам-программистам, работающим в сфере Data Science.
Компания Anaconda, предлагающая одноименный дистрибутив Python для научных приложений, опубликовала результаты опроса '2020 State Of Data Science', в котором приняли участие 2360 респондентов из 100 стран.
Несмотря на все достижения последних лет рутинная работа с данными и сегодня занимает большую часть трудового дня исследователя данных. По оценкам респондентов, на загрузку и очистку данных они тратят соответственно 19% и 26% своего рабочего времени, что в совокупности составляет почти его половину. На выбор модели, обучение/определение количественных показателей и развертывание приходится 34% (примерно по 11% на каждую из этих задач).
Когда речь заходит о применении технологий больших данных и продвинутой аналитики в производственных целях, главным препятствием для исследователей данных, разработчиков и системных администраторов становится соблюдение требований безопасности. По крайней мере некоторые из них создают дополнительные сложности при масштабном развертывании любого нового приложения, а жизненные циклы аналитических систем порождают свои собственные проблемы, касающиеся, например, устранения уязвимостей в ПО с открытым кодом.
Еще один вопрос, упомянутый респондентами, обусловлен разрывом между образовательными программами вузов, и навыками, которые нужны компаний. Большинство университетов предлагают курсы статистики, теории машинного обучения и программирования на Python, и большая часть студентов обучается именно на этих курсах. Предприятиям же нужны навыки управления данными – дисциплина, которую преподают довольно редко или вообще не преподают, а также хорошая математическая подготовка, которую студенты, как правило, не получают. Сами же студенты жалуются на нехватку опыта (40%) и технических знаний (26%), которые становятся для них главными препятствиями при трудоустройстве.
Один из сделанных выводов, впрочем, наверняка никого не удивит. Python продолжает оставаться королем языков, используемых специалистами, которые занимаются наукой о данных. Далее с большим отставанием идет язык R, а уже за ним следуют JavaScript, Java, Си/C++ и C#. Восходящая звезда в мире науки о данных Julia в отчете и вовсе не упоминается. Неясно, правда, связано ли это с тем, что указанный язык не набрал достаточного числа голосов респондентов, или же его просто не включили в опрос.