Рекрутеры осваивают машинное обучение

Математические модели сегодня помогают рекрутерам и заменяют их, а в перспективе будут работать лучше людей.

В чем прелесть цифрового бизнеса? Создаваемые в компании инструменты работы с данными можно использовать для оптимизации внутренних процессов, для совершенствования продуктов и улучшения взаимодействия с заказчиками, а также предоставлять клиентам в виде сервисов.

Рекрутмент – благодатная сфера такого комплексного применения цифрового инструментария. О том, как машинное обучение помогает решать простые, но крайне трудоемкие задачи рекрутинга, директор по развитию компании HeadHunter Борис Вольфсон рассказал на VI Российском форуме Big Data 2017, организованном издательством «Открытые системы». По его словам, математические модели сегодня помогают рекрутерам и заменяют их, а в перспективе будут работать лучше людей.

Опыт рекрутеров может также пригодиться в других отраслях специалистам, отвечающим за цифровизацию бизнеса и работу с данными.

Технология, сберегающая время

Первая задача, которую в HeadHunter решили с помощью технологий машинного обучения, – ранжирование откликов на опубликованные вакансии. Чтобы понять, кого приглашать на интервью, HR-специалисты тратят очень много времени, оно уходит в основном на разбор резюме и составление списка для собеседования. Особенно обильно поступают нерелевантные отклики на самые привлекательные вакансии с высокой зарплатой. На следующий этап отбора HR таких соискателей не пропускает, но их отсев обходится рекрутинговой компании в несколько сотен миллионов рублей в год.

Оценивая резюме на этом этапе, рекрутер обычно обращает внимание всего на пять-десять основных критериев. Однако, когда список критериев определяется экспертами и базируется на их опыте, а не на данных, всегда есть риск упустить что-то важное. Например, известны случаи, когда самыми хорошими работниками оказываются бывшие заключенные. Кроме того, при отборе по формальным признакам отсекаются вакансии с зарплатой в 99 тыс. руб., если соискатель установил планку от 100 тыс. руб.

В системе машинного обучения для оценки резюме используются сотни критериев. При этом список критериев составляется программой, которой исследователь данных (data scientist) дает задание посмотреть, например, насколько значима для человека разница между зарплатными ожиданиями и зарплатной вилкой в вакансии либо насколько точно текст резюме должен соответствовать тексту вакансии.

Для обучения системы в компании использовали выборку, насчитывающую около 200 млн соискателей и вакансий. На основе уже имеющихся данных о том, каких кандидатов в итоге пригласили на собеседование, система машинного обучения строит «лес» из сотен тысяч «деревьев» решений и с минимальной погрешностью вычисляет среднюю оценку кандидата. Для этого используется градиентный бустинг (gradient boosting) – простой стандартный подход, позволяющий за несколько недель сделать модель, работающую в промышленном масштабе. Полученные модели «весят» около 100 Гбайт, так что, строго говоря, эту работу нельзя назвать анализом Больших Данных, отметил Вольфсон, но при этом данные для рекрутмента требуют быстрой обработки и выдачи результатов в режиме онлайн или близком к нему.

Для HR-специалиста система выглядит как кнопка сортировки кандидатов в его рабочем интерфейсе, с ее помощью поднимаются вверх те соискатели, которые с большей вероятностью будут приглашены на собеседование. Эта функция весьма ощутимо экономит время кадровиков. Возможно, подобный инструмент будет полезен и в ИТ-инфрастуктуре кадровых служб крупных предприятий.

Машинным обучением и поиском в HeadHunter занимается команда из десяти человек. Технологически в компании предпочитают опираться на решения open source, используя Linux-системы c веб-интерфейсом и базы данных PostgreSQL. Бэк-офисные системы написаны на языке Java, а функционал фронт-энд-систем – на Python. В качестве основы машинного обучения применяется набор библиотек Boost.

Прескрининг и модерация: вкалывают роботы

Вторая проблема, с которой помогает справиться система машинного обучения, – плохо или не полностью заполненные резюме соискателей. Качество заполнения резюме нужно контролировать на самом верху «воронки» подбора, поэтому все резюме на сайте HeadHunter проходят ручную модерацию – проверку на соответствие определенным критериям. С каждым годом количество резюме растет (сейчас их около 25 млн), соответственно, растут и затраты на каналы связи, серверы и модераторов. Можно ли здесь сэкономить? Можно, если использовать машинное обучение и заменить оператора на систему, которая сможет оценить качество резюме.

Чтобы научить систему подтверждать наиболее качественно заполненные резюме, использовалась выборка, включающая почти 40 млн отмодерированных резюме, в том числе отклоненных. Теперь система способна повторять действия модераторов на основании полей в резюме. Например, проверять соответствие должности, на которую претендует кандидат, профессиональным областям, указанным в его резюме. «Чтобы качество базы не упало с запуском сервиса, мы выбрали пороговые уровни полноты и точности контроля, которые соответствуют действиям человека», – сообщил Вольфсон.

Робот-модератор проверяет все новые резюме, и если он их относит к самым качественным, то они подтверждаются автоматически. Операторам направляются лишь резюме, оставшиеся неподтвержденными. Как утверждает Вольфсон, качество модерации, выполненной роботом, неотличимо от качества той, что выполнена человеком, а потому в результате внедрения этого сервиса несколько операторов, занимавшихся этой работой, освободились.

Машина ищет работу

Борис Вольфсон, директор по развитию HeadHunter:
«Использование машинного обучения дает хороший эффект в рекрутинге: целевые метрики вырастают в среднем на десятки процентов»

Еще один вариант применения машинного обучения в HeadHunter связан с нуждами тех, кто ищет работу. «Стратегически мы стараемся балансировать интересы соискателя и работодателя», – отметил Вольфсон.

Вакансии, которые могут заинтересовать соискателя, традиционно подбираются с помощью фильтров по параметрам резюме: зарплата, профессиональная область, регион и т. д. В HeadHunter эту функцию выполняет рекомендательный сервис на основе машинного обучения. Имеющиеся в базе 350 тыс. открытых вакансий проходят три стадии обработки: два фильтра и ранжирующую модель.

Базовый эвристический фильтр, составленный вручную, нацелен на максимальное сокращение выборки по двум параметрам – региону и профессиональной области, при этом сохраняется большая доля интересных вакансий. Следом в дело вступает система машинного обучения. Быстрая фильтрующая модель отсекает большую часть совсем неподходящих вакансий, используя небольшое число признаков. И наконец, сложная ранжирующая модель, обученная на полном наборе признаков (всего их около 200), сортирует вакансии в полученном после фильтрации списке, выводя наверх самые подходящие для человека. Отобранные вакансии показываются соискателю на главной странице, на странице с рекомендуемыми вакансиями в списке резюме или в рассылках с подходящими вакансиями.

По словам Вольфсона, новая система подбора вакансий по резюме на основе машинного обучения на десятки процентов улучшила основной показатель результативности подбора – долю успешных поисковых сессий у пользователей этого функционала.

На горизонте – «умный» поиск

Использование машинного обучения дает хороший эффект в рекрутинге, резюмировал Вольфсон, целевые метрики вырастают в среднем на десятки процентов, а отдельные текущие задачи дают порядка тысячи дополнительных откликов в неделю. По его мнению, в ближайшем будущем благодаря экономии времени рекрутеров эффективность подбора персонала повысится, а скорость поиска работы для соискателей увеличится.

«Мы все периодически выходим на рынок труда, и этот нервный и не очень приятный период – время поиска работы – должен сильно сократиться», – полагает Вольфсон. Через два-три года, по прогнозам HeadHunter, подбирать сотрудников и искать работу будут сложные ансамбли систем машинного обучения, а участие человека в этих процессах будет уменьшаться. Оценка персонала тоже будет основываться на данных.

Впрочем, место для людей обязательно останется – для стратегических решений и оптимизации процессов, но в целом требования к рекрутерам возрастут. «Точно не останется места для тех, кто не умеет работать с такими системами, не понимает и не умеет использовать предсказания, которые дают эффективные модели», – подчеркнул Вольфсон. Для соискателей, напротив, требования к написанию длинных обстоятельных резюме снизятся, умные системы будут решать за них часть вопросов.

Научившись ранжировать отклики, модерировать резюме и строить рекомендательные системы, HeadHunter готовится перейти к следующему этапу – к «умному» поиску на основе машинного обучения и созданию «своего маленького “Яндекса”». «Мы хотим, чтобы наш поиск тоже использовал машинное обучение, и в ближайшее время планируем запустить несколько проектов, ориентированных на эту задачу, – сообщил Вольфсон. – Это наша ключевая компетенция, ее нельзя отдавать на аутсорсинг».

В компании планируют также поэкспериментировать с обогащением данных, используемых для машинного обучения, с помощью открытых профилей в соцсетях, хотя таких профилей, по словам Вольфсона, очень мало.

По схожему пути сегодня идут и в банках, и в страховых компаниях, и в других отраслях. Можно ожидать, что в скором времени появится много новых интересных работающих вариантов применения машинного обучения.