Сегодня, когда в компаниях практически всех отраслей стремятся получать максимальную отдачу от доступных растущих информационных ресурсов, одними из самых востребованных специалистов стали эксперты по данным (data scientists).
Ценность этой специальности будет расти и дальше по мере того, как в организациях будут ставить себе на службу всевозможные внутренние и внешние источники информации.
Что именно нужно, чтобы стать экспертом в области науки о данных? Перечислим основные качества и навыки, необходимые такому специалисту.
Критическое мышление
Способность критически мыслить необходима для объективного анализа фактов, перед тем как сформулировать мнение или вынести суждение по решаемой проблеме.
Вникнув в суть задачи бизнеса, нужно уметь выделить то, что действительно важно для ее решения, и отбросить несущественное. Этот навык – один из определяющих для специалиста по данным.
Наряду с опытом необходима способность отбрасывать стереотипы. С одной стороны, нужны базовые знания в широком круге областей, с другой – четкое понимание того, что опыт и интуиция не гарантируют стопроцентного успеха.
Программирование
Предпочтительным языком программирования для науки о данных становится Python, немало поклонников есть у R. Применяются и другие, в том числе C++, Scala, Closure, Java и Octave.
При этом, помимо общих знаний в области работы с большими объемами данных, с информацией реального времени, облачными сервисами и неструктурированными данными, нужны знания в области статистических методов и моделей.
Математика
Крупным организациям требуется разработка сложнейших статистических моделей финансовой и операционной деятельности, для обеспечения достоверности которых нужны огромные объемы данных. Создание моделей, приносящих реальную пользу при разработке и оптимизации бизнес-стратегий, невозможно без соответствующей математической подготовки.
Ученый по данным должен не только превосходно разбираться в статистике, но и уметь работать в тесном взаимодействии с бизнес-руководителями, а им обычно требуются доходчивые разъяснения происходящего в «черном ящике».
Машинное обучение и искусственный интеллект
Ученому по данным необходимо быть в курсе последних разработок и понимать области применения различных технологий. Однако стоит избегать внедрения заманчивого новшества, если для решаемой задачи будет достаточно намного менее сложных средств.
Данные «сами» помогут прийти к выбору технологии, когда будет глубокое понимание проблемы и ограничительных условий, включая вычислительные затраты, интерпретируемость, характеристики сети, уровень ожиданий заказчика и т. п.
Вместе с тем нужны навыки в области использования статистических методов. Работодатели не всегда это учитывают, поскольку сегодня широко доступны соответствующие автоматизированные средства, в том числе с открытым кодом. Однако без статистических знаний не будет понимания ограничений таких инструментов.
Недостаточно уметь освоить интерфейсы для работы с готовыми реализациями алгоритмов машинного обучения. Чтобы выбрать подходящий, необходимо понимать статистические методы и принципы предварительной подготовки данных для оптимизации скорости работы модели.
Важны также знания в области компьютерной науки, в частности основ программной инженерии.
Коммуникативные способности
Важность коммуникативных навыков стоит особо подчеркнуть. В службах ИТ сегодня практически ничто не делается «в вакууме»; всегда есть взаимодействие между различными системами, приложениями, данными и людьми. Не исключение и процессы исследования данных, поэтому готовность общаться – одно из важнейших качеств.
Необходимо умение доступно объяснять математические выкладки и превращать их в практические знания. Ученый по данным, работающий на пересечении ИТ, статистических методов и бизнеса, должен быть способным изложить полученные результаты в нужной форме любому из заинтересованных лиц.
Ученый по данным должен не только превосходно разбираться в статистике, но и уметь работать в тесном взаимодействии с бизнес-руководителями
Нужно уметь разъяснять топ-менеджерам преимущества данных для бизнеса, возможности технологий и вычислительных ресурсов, проблемы качества данных, приватности и конфиденциальности, а также другие вопросы, имеющие значение для организации.
Исследователю данных нужны знания в области бизнеса и способность задавать верные вопросы бизнес-руководителям, чтобы понять суть проблемы и разобраться, какие именно данные будут полезными для ее решения.
Кроме того, нужно умение разъяснять принцип действия алгоритмов. Способность рассказать, как именно система пришла к тому или иному выводу, важна для завоевания доверия руководства к прогнозным моделям, которые используются в рамках их бизнес-процессов.
Архитектура данных
Отсутствие понимания архитектуры данных ведет к ошибкам в размере выборки и предположениях, обусловливая неверные результаты и решения.
Что еще хуже, может появиться необходимость менять сами элементы архитектуры. Без исходного понимания ее влияния на модели вы можете застрять в бесконечных доработках, раз за разом получая неточные результаты и тщетно пытаясь разобраться в причинах.
Hadoop избавляет от необходимости перемещать большие данные, обрабатывая их в месте хранения, однако знание всех подробностей конвейера обработки по-прежнему важно для обеспечения принятия качественных, обоснованных решений.
Анализ рисков, оптимизация процессов, системная инженерия
Исследователю данных необходимо понимать принципы анализа бизнес-рисков, улучшения процессов и системной инженерии. Соответствующие навыки применяются комплексно как при работе над моделями, так и при взаимодействии с заказчиком, в частности для получения от него исчерпывающих сведений о решаемой задаче.
Для снижения рисков методы их анализа нужно применять с самого начала разработки моделей.
Способность к решению проблем и бизнес-чутье
Ученому по данным необходимы качества, помогающие справляться с проблемными ситуациями.
Именно на эти свойства, помимо склонности к критическому мышлению, следует обращать внимание при найме технического специалиста на должность ученого по данным.
В целом сочетание навыков хорошего ученого по данным выглядит действительно редким: высокие интеллектуальные способности для решения задач обработки данных и создания эффективных моделей, хорошее понимание проблем бизнеса, знание структуры данных и принципов работы различных алгоритмов.
Первое из перечисленного найти проще – необходимые качества обычно есть у большинства выпускников высших учебных заведений с математическими, инженерными и другими техническими специальностями. А вот с изложением принципов действия моделей сложнее. По свидетельству работодателей, весьма распространена ситуация, когда на собеседование приходит человек с опытом построения сложных моделей, но при этом неспособный внятно объяснить, почему именно та или иная модель сработала и на каком основании был выбран конкретный подход к реализации.
Даже если сама модель делает точные прогнозы, без понимания принципа действия доверия к ней будет меньше. Поэтому залогом успешной карьеры на поприще науки о данных будут глубокие познания в области механизмов работы различных алгоритмов в сочетании с развитой интуицией.
– Bob Violino. Essential skills and traits of elite data scientists. CIO. MAR 27, 2018