Внедряя машинное обучение на предприятии, будьте осторожны: если торопиться с внедрением, не уделить времени необходимой подготовке, могут возникнуть проблемы, которые сведут преимущества машинного обучения на нет. Своевременно выявляя и устраняя ошибки машинного обучения, вы способствуете успеху проекта.
Перечислим ряд проблем, способных увеличить число ошибок, совершаемых при машинном обучении, и продлить их влияние.
1. Отсутствие понимания бизнес-задачи
Иногда аналитики, использующие модели машинного обучения, не имеют точного представления о том, какую задачу бизнеса они с его помощью пытаются решить. Это одна из причин возможного появления ошибок.
Прежде чем приступить к освоению инструмента машинного обучения, нужно ответить на вопросы, какую именно задачу вам надо решить и какие для этого требуется построить модели.
С точки зрения статистических возможностей доступные на сегодня средства машинного обучения отличаются чрезвычайной мощностью. При неосторожном использовании такие инструменты могут привести к принятию неверных решений, имеющих серьезные последствия для компании. Если не приложить достаточных усилий, может получиться модель, не соответствующая характеристикам используемого набора данных или задаче обучения. Итогом может стать стремительное падение результативности.
Кроме того, качество модели с момента ввода в рабочую эксплуатацию начинает падать. Необходимо постоянно контролировать влияние таких ухудшений на принимаемые решения.
2. Низкое качество данных для обучения
Низкое качество данных — одна из основных проблем, с которыми борются специалисты по управлению данными. Из-за низкого качества данных под угрозой могут оказаться проекты аналитики больших данных.
Нередко надежность алгоритмов машинного обучения переоценивается, а влияние некачественных данных недооценивается. Низкокачественные данные ведут к получению неверных результатов и принятию необоснованных бизнес-решений. Это, в свою очередь, вредит доходам и затрудняет финансирование новых проектов.
Для предотвращения проблемы можно применять методы разведочного анализа данных (exploratory data analysis, EDA). В процессе такого анализа обнаруживаются наиболее явные проблемы качества, например аномальные и отсутствующие значения, а также значения, выпадающие из области определения.
3. Неверное применение машинного обучения
Одна из самых распространенных проблем связана со стремлением использовать машинное обучение только потому, что это «модно». Но для успеха соответствующих инициатив нужно, чтобы решаемые задачи не выходили за рамки верных областей применения нового инструмента. Не исключено, что традиционные методы обеспечат не только более быстрое, но и менее дорогостоящее решение.
К тому же, используя машинное обучение для решения неподходящих задач, вы будете впустую тратить рабочее время сотрудников и инфраструктурные ресурсы для получения результатов, которые можно было бы получить более простым путем.
Уточните бизнес-цель, которую нужно достичь, уровень сложности задачи, объем данных и количество атрибутов. Относительно простые задачи, связанные с классификацией, кластеризацией или поиском ассоциативных правил, требуют небольших объемов данных с малым числом атрибутов и могут быть решены с помощью визуализации или статистического анализа.
Когда объемы данных становятся огромными, возможно, больше подойдет машинное обучение. Однако нередко уже после внедрения выясняется, что бизнес-цель не была сформулирована достаточно четко и решается не та задача, которую требовалось решить.
4. Модели машинного обучения могут быть предвзятыми
Причиной неверных выводов могут быть не только неточности и пробелы в данных, но и предвзятость (системные ошибки). У каждого алгоритма машинного обучения свои характеристики чувствительности к несбалансированным классам и распределениям.
Точность заключения, сделанного как алгоритмом, так и человеком, зависит от широты и качества обработанной информации. В связи с возможностью финансового, юридического и репутационного риска, обусловленного алгоритмической предвзятостью, в любой компании, применяющей машинное обучение, необходимо следить за соблюдением принципов этики в масштабах всей организации.
Существуют подробные описания признаков алгоритмической предвзятости для таких задач, как оценка кредитоспособности, составление образовательных программ, наем персонала и вынесение приговоров по уголовным делам. Недочеты, допущенные при сборе и контроле качества и использовании данных, способны внести системные ошибки даже в самые лучшие реализации приложений машинного обучения.
5. Нехватка ресурсов для полноценного внедрения
Начиная проект, связанный с машинным обучением, в организациях нередко недооценивают необходимый для этого объем кадровых и инфраструктурных ресурсов. Потребности в последних могут быть внушительными, особенно если речь идет об обработке изображений, аудио и видео.
Если у вас нет достаточных мощностей, эффективная разработка решений на основе машинного обучения будет трудной, а то и невозможной.
Но даже если вы реализовали такое решение, в нем не будет смысла, если из-за отсутствия необходимой инфраструктуры его нельзя будет развернуть и использовать.
Масштабируемая инфраструктура для систем машинного обучения может обойтись недешево как в развертывании, так и в сопровождении. Но существует ряд облачных сервисов, предоставляющих масштабируемые платформы машинного обучения, ресурсы которых можно выделять по мере необходимости. Облако позволяет проводить масштабные эксперименты в области машинного обучения без закупки оборудования и работ по развертыванию и настройке.
В некоторых организациях предпочитают использовать локальную инфраструктуру. В этом случае облачные сервисы можно использовать в качестве стартплощадки и инструмента обучения, который поможет понять, какие именно инфраструктурные ресурсы необходимы организации, прежде чем сделать крупное вложение.
Что касается персонала: если у вас в штате нет ученых по данным (data scientist) и инженеров по машинному обучению, то проект может застрять.
Специалисты соответствующего профиля смогут обнаружить проблемы с качеством данных, грамотно проведут развертывание и обеспечат использование решений по назначению, помогут сформулировать рекомендации для последующих внедрений и политики сопровождения.
6. Некачественное планирование и отсутствие контроля
Проект в области машинного обучения может быть начат с энтузиазмом, но со временем застопориться — это признак неудачного планирования и отсутствия контроля.
Если не соблюдать заранее установленные правила, осуществление инициативы растянется на неопределенно долгое время, что может привести к колоссальным затратам ресурсов без пользы.
Нельзя забывать о том, что машинное обучение — это итеративный процесс и модели могут со временем меняться для адаптации к новым требованиям.
Как подчеркивают специалисты, ход проектов в области машинного обучения нуждается в постоянном контроле. Если прогресс замедляется, возможно, пришло время сделать паузу и пересмотреть принципы осуществления инициативы.
— Bob Violino. 6 ways to make machine learning fail. InfoWorld. OCT 10, 2018