Кто такой исследователь данных?
Исследователи данных (data scientist) отвечают за извлечение полезных сведений из огромных массивов структурированных и неструктурированных данных, помогая определять конкретные потребности и цели бизнеса и добиваться их достижения. Роль исследователя данных при проведении их анализа приобретает все более важное значение, поскольку руководители, принимая решения, склонны полагаться на Большие Данные, а облачные технологии, автоматизация и машинное обучение становятся основными компонентами их стратегии в области ИТ.
Исследователь данных отвечает за организацию и анализ больших объемов данных. Как правило, решаются эти задачи с использованием специально предназначенного для таких целей программного обеспечения. Окончательные результаты анализа должны быть достаточно просты, чтобы их могли понять все заинтересованные лица, особенно те, кто не имеет отношения к ИТ.
Подход к анализу данных зависит не только от отрасли, но и от потребностей конкретного предприятия или подразделения. Прежде чем исследователь данных попытается проникнуть в суть структурированных или неструктурированных данных, руководителям подразделений нужно объяснить ему, что они ищут. При этом исследователь данных должен обладать достаточными знаниями предметной области, с тем чтобы спроецировать на данные цели компании или подразделения и разработать необходимые технологии прогнозирования и распознавания шаблонов, оптимизационные алгоритмы и пр.
В чем заключается работа исследователя данных?
Ответственность исследователя данных лежит в сфере анализа данных – процесса, который начинается со сбора данных и заканчивается принятием бизнес-решений на основе окончательных результатов анализа данных.
Анализируемые данные, которые зачастую называют Большими Данными, поступают из различных источников. Большие Данные разбиваются на два основных типа: структурированные и неструктурированные. В структурированных выделяются определенные категории, которые упрощают их автоматическую компьютерную сортировку, чтение и организацию. Данные собираются при помощи различных сервисов, продуктов и электронных устройств. Значительно реже здесь присутствуют данные, введенные человеком. Трафик веб-сайтов, цифры продаж, банковские счета и координаты GPS, регистрируемые смартфоном, – все это примеры структурированных форм данных.
Неструктурированные данные (а их объемы растут быстрее всего) чаще всего вводятся человеком. Сюда относятся клиентские обзоры, электронная почта, видео, публикации в социальных сетях и т. д. Данные такого рода в меньшей степени поддаются сортировке, а управление ими не столь эффективно. Управление неструктурированными данными требует значительных капиталовложений, поскольку универсальных методов здесь не существует. Для извлечения из неструктурированных данных полезной информации предприятия обычно используют поиск по ключевым словам.
Как правило, исследователи данных нанимаются именно для управления неструктурированными данными, в то время как остальной персонал ИТ-службы отвечает за управление и поддержку структурированных данных. И хотя за свою карьеру исследователи данных «перелопачивают» огромные объемы структурированных данных, руководители предприятий, желающие извлекать доход и из неструктурированных данных, обычно требуют от них управления именно ими.
Требования к исследователю данных
В каждой из отраслей исследователю данных предлагается свой собственный профиль Больших Данных. Перечислим некоторые наиболее общие формы Больших Данных для отдельных отраслей, а также те виды анализа, которые придется выполнять исследователям данных.
• Коммерческие предприятия. Сегодня именно данные формируют стратегию бизнеса фактически в любой компании. Исследователи данных нужны компаниям для того, чтобы извлекать из данных полезную информацию. На основе анализа данных принимаются решения, способствующие росту эффективности, оптимизации складских запасов, устранению производственных ошибок, повышению лояльности клиентов и т. д.
• Электронная коммерция. Сейчас, когда сайты собирают сведения не только о покупках, исследователи данных помогают предприятиям электронной коммерции улучшать обслуживание клиентов, выявлять существующие тенденции, разрабатывать новые продукты и сервисы.
• Финансы. В финансовой отрасли сведения о счетах, кредитных и дебетовых транзакциях и прочие финансовые данные имеют жизненно важное значение для бизнеса. Кроме того, исследователям данных в этой области приходится заботиться о безопасности (включая выявление случаев мошенничества) и соблюдении нормативных требований, установленных регулирующими органами.
• Государственный сектор. Большие Данные помогают правительствам принимать решения, поддерживать граждан и следить за общим уровнем их удовлетворенности. Как и в финансовом секторе, вопросам безопасности и соблюдения нормативных требований здесь отводится очень важная роль.
• Наука. Ученые всегда имели дело с данными, но с появлением новых технологий стало проще собирать эти данные, анализировать их и обмениваться результатами экспериментов. И исследователи данных могут оказать необходимую помощь в таком процессе.
• Социальные сети. Данные социальных сетей помогают распространять целевую рекламу, повышать степень удовлетворенности клиентов, формировать тенденции размещения данных и расширять имеющийся функционал и сервисы. Постоянный анализ данных, содержащихся в публикациях, твитах, блогах и других социальных медиа, способствует улучшению качества обслуживания.
• Здравоохранение. Сегодня электронные медицинские карты стали фактическим стандартом в сфере здравоохранения и требуют особого внимания к Большим Данным и вопросам безопасности и соблюдения нормативных требований. Исследователи данных помогают улучшать медицинские сервисы и раскрывать тенденции, которые в противном случае остались бы незамеченными.
• Телекоммуникации. Все электронные устройства собирают данные, и все эти данные нужно хранить, управлять ими, поддерживать и анализировать. Исследователи данных помогают компаниям устранять ошибки, улучшать продукты и повышать уровень удовлетворенности клиентов, предлагая им те возможности, которые их интересуют.
• Прочее. В мире нет, пожалуй, отрасли, которую не захлестнула бы волна Больших Данных, и исследователи данных наверняка найдут себе работу – будь то в политике, в области коммунальных услуг, в сфере интеллектуальных программно-аппаратных комплексов и т. д.
Навыки исследователя данных
Пять основных навыков, которые нужны исследователю данных, представляют собой смесь знаний и опыта межличностного общения.
• Программирование. Это наиболее фундаментальная сфера, которая придает специалисту дополнительную ценность. Программирование повышает уровень знаний в области статистики, помогает анализировать большие наборы данных и предоставляет вам возможность создавать свои собственные инструменты.
• Количественный анализ. Этот важный для анализа больших наборов данных навык расширяет ваши возможности в части экспериментального анализа, улучшает стратегию работы с данными и помогает внедрять машинное обучение.
• Интуитивный выбор продуктов. Понимание продуктов помогает проводить количественный анализ. Кроме того, это способствует улучшению прогнозирования поведения систем, нахождению нужных параметров и отработке навыков отладки.
• Коммуникативные навыки. Пожалуй, наиболее важным в межличностном общении в любой отрасли представляется наличие устойчивых коммуникативных навыков, которые помогают повышать отдачу от всех прочих ранее приобретенных знаний.
• Работа в команде. Как и коммуникативные навыки, умение работать в команде имеет жизненно важное значение для успешной карьеры исследователя данных. Оно требует самоотверженности, налаженной обратной связи и желания делиться своими знаниями с другими членами команды.
Обучение и подготовка исследователя данных
Для того чтобы стать исследователем данных, есть множество путей, но самый традиционный заключается в получении степени бакалавра. Стоит добавить, что большинство исследователей данных имеют как минимум степень магистра. Впрочем, есть и другие способы приобретения соответствующих навыков. Прежде чем приступать к изучению программы высшего образования, нужно понять, какие навыки, инструменты и программное обеспечение наиболее важны для той сферы, в которой вы собираетесь работать.
Поскольку наука о данных требует знаний предметной области, роль исследователя данных варьируется в зависимости от отрасли, и тем, кто связан с высокотехнологичной сферой, понадобится дальнейшее обучение. Если вы, к примеру, работаете в области здравоохранения, в государственном секторе или в науке, вам потребуются навыки, которые существенно отличаются от тех, что нужны в маркетинге, бизнесе или образовании.
Тем, кто желает развивать навыки, которые востребованы в какой-то конкретной отрасли, предлагаются различные интерактивные классы, учебные курсы и курсы профессиональной подготовки, помогающие получить необходимые знания. Помимо учебных курсов, есть множество ценных сертификатов в области Больших Данных, которые улучшат ваше резюме и станут дополнительным доводом в пользу более высокой зарплаты.
Как стать исследователем данных
После получения необходимого образования и прохождения обучения вы сможете претендовать на роль, соответствующую имеющимся у вас знаниям. Если вы уже работаете в сфере ИТ, найти открытые позиции и потенциальные возможности для профессионального роста можно непосредственно в круге своего общения.
Полезно узнать, требуют ли интересующие вас вакансии в желаемой отрасли и сфере деятельности наличия высшего образования, сертификатов или дипломов о прохождении курсов обучения. Изучите имеющиеся вакансии и выделите их общие черты. Ну а затем можно приступать к выработке стратегии, которая поможет вам стать исследователем данных, обладающим всеми необходимыми для получения этой работы знаниями, навыками и опытом.
− Sarah K. White. What is a data scientist? A key data analytics role and a lucrative career. CIO. August 18, 2017