Длинный цикл обучения в системе высшего образования не позволяет бизнесу рассчитывать только на выпускников вузов при заполнении таких вакансий, как специалисты по исследованию данных. О том, какие еще имеются возможности получения образования в области Data Science, рассказывает Виктор Кантор — эксперт по машинному обучению, соавтор нескольких спецализированных учебных программ. Кантор более десяти лет занимается машинным обучением, преподает в вузах, компаниях и на онлайн-ресурсе Coursera, работал в Yandex Data Factory, ABBYY, ряде стартапов, руководил службой анализа данных в «Яндекс.Такси».
— Растущая потребность экономики в специалистах по исследованию данных очевидна. За счет чего эта потребность может быть удовлетворена помимо вузов?
Есть множество краткосрочных практико-ориентированных образовательных программ. Например, в 2016 году мы с коллегами из Яндекс и МФТИ запустили на Сoursera.org специализацию «Машинное обучение и анализ данных», состоящую из пяти курсов и финального проекта. На этих курсах постоянно активны 30–40 тыс. русскоговорящих слушателей со всего мира, порядка сотни тысяч человек когда-либо приступали к курсам этой специализации и тысячи слушателей прошли хотя бы один курс. Осиливших все пять курсов, конечно, меньше — чуть менее тысячи за два года. Впрочем, в университетах курс Data Science за год также проходят в лучшем случае 100–200 человек, и хотя бы 40% из них делают это сознательно и на самом деле мотивированы что-то усвоить, но и они поначалу не могут сделать ничего полезного для индустрии, так как курс зачастую совсем теоретический. Мы же старались рассказать именно то, что действительно нужно работающему в компании исследователю данных, и люди это оценили.
Кроме того, наша команда разработала офлайн-курс Data Mining in Action, который пока бесплатен для слушателей, в отличие от специализации на Coursera. Курс включает три направления: индустриальный анализ данных, используемый в компаниях; соревновательное направление — о том, как «выжимать» из моделей максимальное качество; глубинное обучение (deep learning). Этот курс вырос из факультатива для студентов Физтеха, сейчас проходит в МИСиС и за последние два запуска заинтересовал сначала семьсот, а затем тысячу слушателей. Сейчас мы отказались от идеи собирать как можно большую аудиторию на один курс и добавили процедуры отбора по тестам и мотивационным письмам, так как, во -первых, трудно найти помещение на такое количество человек для некоммерческого проекта, а во -вторых, не хочется пересекать грань между лекцией и концертом.
Мы стараемся выпускать в год около 200 очень мотивированных человек, и примерно половина из них уже давно не студенты, а состоявшиеся специалисты, интересующиеся исследованием данных. В конце обучения мы периодически устраиваем собеседования выпускников с работодателями в формате «быстрое знакомство» (speed dating). Например, недавно мы получили очень позитивный отзыв от «Райффайзенбанка»: из десятка участников собеседования пять человек прошли остальные этапы отбора и были приняты на работу в компанию.
Из очных инициатив нужно также упомянуть Школу анализа данных «Яндекса», которая несколько ближе к университетам, так как рассчитана на двухгодичное обучение и в некоторых вузах может быть зачтена как магистерская программа. Хотя в моем представлении все, что проходят в ШАД, должны проходить в бакалавриате, а в магистратуре нужно заниматься более прикладными задачами, чтобы выпускник был ближе к индустрии. ШАД — очень хорошее место, куда непросто попасть, но где очень приятно и интересно учиться. Ситуацию хорошо иллюстрирует слоган школы: «Будет сложно, вам понравится».
Виктор Кантор: «Онлайн-самообразование действительно работает» |
Чтобы бороться с кадровым голодом, многие компании запускают собственные корпоративные образовательные проекты в области анализа данных. Когда слушатели получают знания от сотрудников компаний, можно рассчитывать на то, что это будут знания, близкие к рабочей практике. В результате выпускники быстрее начинают приносить пользу команде. Такие проекты есть у Mail.ru, Сбербанка [1], «МегаФона», «ВымпелКома» и др. Однако при запуске школ и курсов в компаниях важно иметь в виду, что не всегда вся команда образовательного проекта представляет, что такое наука о данных и что за люди аналитики. Иногда это приводит к тому, что некоторые школы, их программы и рекламные кампании негативно воспринимаются в сообществе Data Science, а аналитики стараются не иметь к ним отношения, чтобы не испортить себе репутацию. Как следствие, учиться в такие места пойдут далеко не все талантливые кандидаты, которые могли бы.
Нельзя экономить на людях, которые занимаются кадрами и образованием: некомпетентность сотрудника на этих позициях мгновенно превращается в нехватку кадров и экспертизы в компании. Хороший промежуточный вариант — организовать для своих сотрудников периодические курсы с привлечением внешних экспертов. Это ускорит профессиональный рост сотрудников на начальных этапах, а также обеспечит приток людей в отдел исследования данных за счет внутренних переходов.
Кроме всего перечисленного, есть огромное количество курсов формата «стань исследователем данных очень быстро и очень дорого», которые иногда оказываются полезны. При этом будущее, как мне кажется, за онлайн-образованием — только оно позволяет достаточно быстро масштабировать процесс обучения.
— Возможно ли онлайн-самообучение для этой специальности и известны ли вам примеры самоподготовки?
Онлайн-самообразование действительно работает, мы это не раз наблюдали на примере нашей специализации на Coursera. Когда мы ее записывали, то считали, что ее выпускники смогут без особых трудностей устраиваться работать в небольшие компании, но в «Яндексе», Mail.ru и других крупных ИТ-компаниях они не выдержат конкуренции с выпускниками МГУ, МФТИ и ВШЭ. Но оказалось, что иногда можно конкурировать и с людьми, обучавшимися по этому направлению несколько лет. В некотором смысле это хорошая новость.
— Существует ли сегодня общепризнанный стандарт обучения по направлению «исследователи данных»? Ведется ли его разработка?
Вопрос довольно деликатный. К официальным стандартам в российской ИТ-среде относятся прохладно, а в государственном образовании и в университетах — с большим трепетом. Как следствие, разработка стандартов для вузов ведется, но они так же далеки от жизни, как и большинство вузов далеки от бизнеса. Заявлений о сотрудничестве сейчас множество, а вот экономическая эффективность этого сотрудничества часто оставляет желать лучшего. В академической среде вообще сложно с деловым подходом — такая ситуация формировалась десятилетиями. Так что даже если что-то будет разработано, то еще большой вопрос, нужны ли будут индустрии выпускники, которых готовили по данным стандартам, не говоря уже о том, насколько написанное на бумаге будет отличаться от реальных знаний в головах.
— Человека с каким базовым образованием можно переобучить на исследователя данных и какой должна быть его переподготовка?
С любым — все зависит от талантов и интересов человека. Каждый может получить базовое образование и понять, что это совсем не то, что ему нужно. Если быть достаточно отважным, настойчивым и рассудительным, можно осилить переподготовку. У меня есть пример человека с чисто экономическим образованием, ставшего хорошим специалистом по глубинному обучению, а также филолога, успешно занявшегося методами машинного обучения применительно к обработке текстов на естественном языке.
Часто образование — это преимущество. Показательный пример: моя коллега по образовательным проектам занимает пост Chief Data Scientist в компании Mechanica.AI, внедряющей машинное обучение в промышленности, в том числе в металлургии и нефтехимии, и ей нужны люди, разбирающиеся в химии, физике, инженерном деле. В этой ситуации обычная история — нанять человека с профильным образованием и доучить его науке о данных.
Но, как правило, компании не инвестируют в обучение сотрудника, а удивляются, отчего он сам не сделал этого ранее. Гибкость здесь не помешает: я видел примеры компаний, нанимающих человека на хорошую зарплату, позволяющих ему первое время поучиться, а в результате получающих эффективного, мотивированного и лояльного сотрудника. Но, как и с любыми инвестициями, нужно быть очень внимательным и уметь оценивать, что можно ожидать от человека.
— Каким должен быть сегодня эффективный преподаватель?
Есть несколько важных изменений в образовании, от которых преподаватель должен не отставать.
Во-первых, сегодня нельзя воспринимать взаимодействие преподавателя со слушателем как общение сверху вниз. Теперь мы все — преподаватели, когда делимся с кем-то своим опытом в том, что хорошо умеем, и все — студенты, когда такой опыт перенимаем. А значит, взаимодействие должно строиться на принципах взаимного уважения, готовности слушать и слышать друг друга, проявлять эмпатию, сотрудничать и заботиться об интересах обеих сторон.
Во-вторых, нужно быть практиком и самому применять те знания, которым учишь, а также регулярно узнавать новое и следить за тем, что применяется на практике сегодня. Это совсем не значит, что мы перестали ценить академические знания.
В-третьих, нужно быть готовым идти в онлайн, а это уже совершенно другие масштабы и другой уровень эффективности.
И в -четвертых, сейчас мир движется в сторону так называемого микрообучения (microlearning). Все заняты своими делами, времени очень мало, и для обучения нужно использовать те промежутки времени, которые получается. Поэтому есть стойкая тенденция к дроблению процесса обучения на маленькие полезные шаги. На смену обучению в вузе по фиксированным учебным планам, рассчитанным на несколько лет, постепенно приходит построение персональной траектории обучения на небольших релевантных курсах, каждый из которых значительно реальней пройти до конца, чем один университетский курс. Надеюсь, через десяток лет процесс обучения будет очень сильно персонализирован и без машинного обучения здесь не обойдется.
Литература
- Ирина Шеян. Зачем бизнесу свой университет? // Открытые системы.СУБД. — 2018.— № 4. — С. 44–46. URL: www.osp.ru/os/2018/04/13054605 (дата обращения: 31.1.2019).
Ирина Шеян (rrisha@osp.ru) — обозреватель, «Открытые системы» (Москва).