О дефиците специалистов по данным (data scientist) известно всем, и именно этот фактор зачастую встает на пути компаний, пытающихся заняться темой Больших Данных. Кто все эти люди, где и как их искать? Как их можно развивать и мотивировать? Этим вопросам было посвящено выступление Алексея Натекина, основателя компании Data Mining Labs, на конференции «Технологии Больших Данных», организованной издательством «Открытые системы».
Наука или искусство?
По мнению Натекина, термин Data Science лучше не переводить и по своей сути он является зонтичным. Если объединить различные определения, встречающиеся в разных источниках, то большинство из них говорят о недавно возникшей области знаний, которая служит «зонтиком» для многих сопряженных инженерных, технических и математических наук. В Data Science входят такие области, как машинное обучение, статистика, Большие Данные с точки зрения инженерных технологий. Помимо этого, можно включить визуализацию данных и теорию оптимизации. Бывают и красивые определения, относящие Data Science к искусству преобразования данных в решения.
«Когда человек называет себя data scientist, то бывает трудно понять, какой частью этого широкого круга задач он занимается. Узнать, на чем именно он специализируется, получится только при личном общении», – говорит Натекин.
Тем не менее, согласно общепринятому мнению, data scientist – это специалист, работающий на пересечении компьютерных наук и программирования, математики и статистики, а также имеющий знания в предметной области и умеющий применить свои знания в той сфере, где работает. Шуточное определение, говорящее о том, что это человек, который знает статистику лучше программиста и программирует лучше, чем статистик, на самом деле очень близко к истине.
Однако по спискам вакансий очень сложно понять, кто же именно нужен компаниям. Вакансии исследователей данных перемешаны с вакансиями аналитиков, инженеров, экспертов по машинному обучению и запросами по еще нескольким категориям специалистов. В различных социальных группах идет множество обсуждений, касающихся специалистов по данным, – «правильных» и не очень.
В одной из групп собрали статистическую сводку о своих участниках, в результате удалось выделить четыре типовые роли. Первая – исследователь, по большей части занимающийся статистикой, немного разбирающийся в программировании и не очень – в бизнес-вопросах. Вторая категория – разработчики, много программирующие, не очень хорошо знающие статистику и больше занимающиеся проблемами, связанными с данными. Третья роль – «креативщики», свободные художники, способные заниматься всем. Они получают задачу и сами ищут пути ее решения. Наконец, существует и предпринимательский образ специалиста, где больше бизнеса и меньше всего остального.
Если же говорить о квалификации специалистов, то их градация совпадает с традиционной шкалой «junior – middle – senior», принятой среди программистов, однако этапы развития несколько другие. Разница между их уровнями заключается не столько в знаниях и опыте, сколько в уровнях ответственности и способности самостоятельно решать задачи в том виде, в каком они поступают от бизнеса, – старшему или ведущему специалисту можно отдать задачу целиком на откуп. В этом случае взаимодействие будет идти в следующем формате: руководитель направления обращается к специалисту, жалуется на проблему (например, в компании снижается средний чек) и интересуется, что можно с этим сделать. Ведущий data scientist через неделю возвращается к нему с решением и предлагает варианты действий.
Специалист среднего уровня – тот, кто к такому взаимодействию с бизнесом пока только стремится. За ним периодически надо присматривать, но он все же может брать некоторые задачи в бизнес-формате и решать их. Специалисты низшего уровня готового бизнес-решения точно не дадут. Скорее всего, результатом их работы будет готовая к работе модель, способная предсказывать, но еще не имеющая бизнес-ценности. Весь анализ, каким бы хитроумным он ни был, в конечном счете требуется привязать к какому-то решению – сократить производственные линии, закупить дополнительный трафик для увеличения продаж и т. п.
Сотрудники двигаются по карьерной лестнице не потому, что они получили ученую степень и теперь их ценность резко возросла. Их рост обеспечивается общим количеством реализованных проектов и накопленным опытом, и крайне желательно, чтобы этот опыт был тесно связан с бизнесом, с пониманием того, как проводимый анализ помогает работе компании.
Личные связи решают всё
Проблема, как и во многих других областях, заключается в том, что высококлассных специалистов мало. Как особенность можно выделить то, что с ними очень легко проводить собеседование – речь пойдет о портфолио и реализованных проектах. «Навешать лапши на уши» обеим сторонам при этом сложно.
Младших специалистов и тех, кто хочет ими стать, напротив, очень много, в том числе людей, прослушавших пару курсов и требующих зарплату почти как в Кремниевой долине. И как раз сложнее всего нанимать именно таких сотрудников. Ведь в перспективе мы хотим, чтобы они росли, становились все более самостоятельными и лучше разбирались в области.
Алексей Натекин, основатель компании Data Mining Labs: «Самое важное в интервьюировании тех, кто называет себя data scientist, – как можно больше говорить с ними об их практическом опыте и реализованных проектах» |
«Можно нанять 10 человек с красными дипломами Физтеха, однако невозможно угадать, кто из них окажется достаточно одаренным, чтобы самостоятельно “затащить” какой-либо проект. Это сложные психологические нюансы, которые приходится выявлять в процессе общения с человеком», – отмечает Натекин.
Специалистов средней руки также достаточно много, их можно найти за разумное количество встреч с кандидатами, отсеивая переоценивающих себя начинающих. А вот высококлассных экспертов обычным поиском не найти.
«Если разместить такую вакансию на каком-либо рекрутинговом сайте, откликнется много неадекватных личностей, ни одного из которых вы не захотите пригласить к себе в офис для беседы», – полагает Натекин. Нужных специалистов приходится искать либо с помощью профессиональных хедхантеров, либо через личные связи и сообщества. Остальных вполне можно найти в открытых источниках и даже через академические связи и мероприятия. Впрочем, это касается многих категорий специалистов.
Самый эффективный вариант поиска специалистов высшего уровня – спросить рекомендацию у их коллег. Особенно им нравится, когда они могут напрямую пообщаться с людьми из команды потенциального работодателя. Это помогает и заранее познакомиться, и оценить свои перспективы. Таким образом, личные связи – самый быстрый и эффективный способ найма нужных людей.
«Самое важное в интервьюировании тех, кто называет себя data scientist, – как можно больше говорить об их практическом опыте и реализованных проектах, интересуясь причинами выбора тех или иных подходов и альтернативными вариантами решения задачи», – рекомендует Натекин. Есть большое количество «коварных» вопросов для собеседований, верные ответы на которые можно просто выучить. Интересующую компании теорию тоже можно зазубрить в процессе хождения по компаниям. А вот портфолио сфабриковать крайне сложно, если проекты есть – они видны. Причем в качестве своего багажа проделанной работы можно показывать не только коммерческие проекты, которые вы делали для компании. Вполне подойдут работы с хакатонов и конкурсов, и даже домашние проекты. Все это – явный признак наличия за плечами определенного опыта.
С правом на ошибку
Область data science очень динамична, и совершенно неудивительно, что среднее «время жизни» специалиста в компании невелико. Кроме того, создаваемые аналитические подразделения часто «не взлетают», и люди, не видя радужных перспектив, находят себе новое место работы еще до завершения испытательного срока.
Что может пойти не так и что можно сделать, чтобы специалисты задерживались в компании дольше?
Первое, что надо знать при открытии практики data science, – как можно лучше представлять себе, для чего она открывается. Как правило, речь идет о внутренней поддержке каких-либо аналитических процессов или продуктов. Основные проблемы связаны именно с непониманием своих потребностей: часто в компании есть масса данных, которые хочется хоть как-то использовать.
Первое, что надо знать при открытии практики data science, – как можно лучше представлять себе, для чего она открывается
«Само подразделение не начнет зарабатывать деньги и не станет конвейером ценных знаний. Нужно понимать, кого и зачем вы нанимаете», – говорит Натекин. Кроме того, не стоит смешивать вакансии – для каждой из них необходим свой набор навыков. Специалист по машинному обучению должен строить модели, а не заниматься конвейером данных.
Как нетрудно догадаться, далеко не все проекты оказываются успешными, поэтому неплохо, если частью культуры станет право на ошибку. Вероятность ошибиться есть всегда, и бояться этого не надо. Главное – уметь объяснить, где и почему была сделана ошибка. Это тоже ценный результат, он поможет сэкономить время в будущем.
Наконец, необходимо концентрироваться на быстрых, прототипных решениях. Надо быть готовым к тому, что большинство результатов будут отрицательными. Требуется как можно быстрее выделять те, которые оказались удачными, поэтому не стоит увлекаться длительными масштабными работами.
«Если вы хотите, чтобы кандидаты не врали на собеседованиях, не врите в вакансиях. Например, очистка данных является рутинной, но необходимой процедурой любого проекта. Об этом следует честно сказать в вакансии, не ограничиваясь лишь привлекательными творческими обязанностями», – уверен Натекин.
При выборе инструментов надо ориентироваться на открытые платформы. Они чрезвычайно популярны в среде разработчиков, и не стоит верить заказным исследованиям Gartner, называющим в числе лидеров известные коммерческие продукты. Выбор специалистов не случаен: разработка на свободных продуктах удобна и не менее качественна, чем на проприетарных решениях. И ни в коем случае не надо объяснять специалисту, как ему следует работать, особенно если сам далек от этой области.
Аналитики McKinsey еще в 2012 году предсказали громадный дефицит специалистов по данным, который только в США к 2018 году должен был составить от 140 до 190 тыс. человек. Этот прогноз часто цитировался, но никто не обратил внимания на следующий абзац того же отчета, говорящий о том, что будет не хватать 1,5 млн менеджеров, способных задавать аналитикам правильные вопросы.