Машинное обучение: методы и способы

Согласно результатам международного исследования Microsoft, 94% руководителей считают, что технологии искусственного интеллекта важны для решения стратегических задач их организаций. При этом 27% опрошенных уже внедрили соответствующие технологии в ключевые бизнес-процессы, еще 46% ведут пилотные проекты.

Россия, благодаря традиционно сильной математической школе не отстает от мировых тенденций. И если судить по докладам на конференции «Технологии машинного обучения. Искусственный интеллект и нейросети: инструменты и опыт реальных проектов», организованной издательством «Открытые системы», применение средств ИИ в нашей стране уже стало если не обыденностью, то достаточно распространенным способом не только оптимизировать, но и радикально поменять бизнес-процессы.

Поскольку разнообразие методов и способов обучения искусственного интеллекта не меньше, чем у интеллекта естественного, то, прежде чем начинать проект в этой области, стоит ознакомиться с методами и способами машинного обучения, их возможностями, сферами применения и ограничениями. Это поможет эффективнее распорядиться отпущенными на проект ресурсами и не пасть жертвой нынешнего ажиотажа вокруг машинного обучения и искусственного интеллекта.

Способы машинного обучения

Обучение с учителем (Supervised learning)

Этот способ оптимален, если вы знаете, чему хотите научить машину. Вы можете познакомить компьютер с огромной обучающей выборкой данных и варьировать параметры до тех пор, пока не получите на выходе ожидаемые результаты. Затем можно уточнить, чему научилась машина, заставив ее спрогнозировать результат для контрольных данных, с которыми компьютер еще не сталкивался.

Чаще всего обучение с учителем применяется для задач классификации и прогнозирования. Обучение с учителем можно использовать при определении финансового риска частных лиц и организаций на основе имеющихся сведений о прошлой финансовой активности, можно неплохо прогнозировать покупательское поведение с учетом прежних закономерностей.

Обучение без учителя (Unsupervised learning)

При обучении без учителя машина исследует набор данных и выявляет скрытые закономерности корреляции между различными переменными. Этот способ можно использовать для группирования данных в кластеры на основании одних только их статистических свойств.

Хорошее применение обучения без учителя — алгоритм кластеризации, используемый для вероятностного соединения записей. Определяются связи между элементами данных, и на основании этих отношений выявляются связи между людьми и организациями в физическом или виртуальном мире.

Вариант особенно полезен компаниям, которым нужно, например, объединить данные из разнородных источников или по различным структурным подразделениям, чтобы построить общую картину клиентуры.

Обучение без учителя также можно использовать для анализа тональности высказываний, чтобы определять эмоциональное состояние людей на основе их постов в социальных сетях, сообщений электронной почты и других записей. Сегодня, в частности, в компаниях, специализирующихся на финансовых услугах, с помощью обучения без учителя все чаще оценивают уровень удовлетворенности клиентов.

Обучение с частичным привлечением учителя (Semi-Supervised learning)

Это гибрид обучения с учителем и без. Разметив небольшую часть данных, учитель дает машине понять, каким образом кластеризовать остальное.

Способ можно применять для распознавания мошенничеств с попытками выдать себя за другого. Мошенничества можно классифицировать как аномалию на фоне обычной активности. Методы машинного обучения с частичным привлечением учителя позволяют создавать модели, распознающие такие аномалии. Соответствующие системы нередко применяются для выявления попыток мошенничеств при онлайн-сделках.

Обучение с частичным привлечением учителя также можно применять в случаях, когда есть готовые наборы частично размеченных данных, что характерно для крупных предприятий. В Amazon, например, улучшили способности цифрового ассистента Alexa понимать естественный язык, обучая алгоритмы искусственного интеллекта на сочетаниях размеченных и неразмеченных данных. Благодаря этому удалось повысить точность ответов Alexa.

Обучение с подкреплением (Reinforcement learning)

При обучении с подкреплением машине позволяют взаимодействовать с окружением (например, сбрасывать бракованную продукцию с конвейера в корзину) и «вознаграждают», когда она правильно выполняет задание. Автоматизировав подсчет вознаграждений, можно дать возможность машине обучаться самостоятельно.

Одно из применений обучения с подкреплением — сортировка товаров в розничных магазинах. Некоторые продавцы экспериментируют с роботизированными системами сортировки предметов одежды, обуви и аксессуаров. Роботы, используя обучение с подкреплением и глубинное обучение, определяют, насколько сильно нужно сдавить предмет при хватании и какой хват будет наилучшим.

Разновидность этого способа, глубинное обучение с подкреплением, хорошо подходит для автономного принятия решений в случаях, когда возможностей обучения с учителем и без недостаточно.

Глубинное обучение (Deep learning)

Глубинное обучение может проходить как без учителя, так и с подкреплением. При глубинном обучении частично имитируются принципы обучения людей — используются нейронные сети для все более подробного уточнения характеристик набора данных.

Глубинные нейронные сети применяются, в частности, для ускорения скрининга больших объемов данных при поиске лекарственных средств. Такие нейросети способны обрабатывать множество изображений за короткое время и извлечь больше признаков, которые модель в конечном счете запоминает.

Этот способ тоже широко применяется для борьбы с мошенничествами, так как улучшает точность распознавания благодаря автоматизации.

Глубинное обучение может использоваться в автомобильной отрасли при выполнении ремонта и профилактического обслуживания.

Методы машинного обучения

Нейронные сети

Нейронные сети имитируют структуру головного мозга: каждый искусственный нейрон соединяется с несколькими другими нейронами. Нейросети имеют многослойную структуру: нейроны на одном слое передают данные нескольким нейронам на следующем и т. д. В конечном счете данные достигают выходного слоя, где сеть выдает предположение о том, как решить задачу, классифицировать объект и т. п.

Нейросети применяются в целом ряде отраслей. В здравоохранении их используют при анализе медицинских снимков с целью ускорения диагностических процедур и поиска лекарств. В телекоммуникационной отрасли и медиаиндустрии нейросети можно применять для машинного перевода, распознавания мошенничеств и предоставления услуг виртуальных ассистентов. В финансовой отрасли их используют для распознавания мошенничеств, управления портфелями и анализа риска. В розничной торговле — для избавления от очередей в кассу и для персонализации обслуживания покупателей.

Дерево решений

Алгоритм дерева решений классифицирует объекты, отвечая на «вопросы» об их атрибутах, расположенные в узловых точках. В зависимости от ответа выбирается одна из ветвей, и так до тех пор, пока не будет достигнут «лист» — окончательный ответ.

Среди применений дерева решений — платформы управления знаниями для клиентского обслуживания, прогнозного назначения цен и планирования выпуска продукции.

В страховой компании дерево решений поможет выяснить, какие виды страховых продуктов и премий лучше задействовать с учетом возможного риска. Используя данные о местонахождении и сведения о страховых случаях с учетом погодных условий, система может определять категории риска на основании поданных требований и затраченных сумм. Затем, используя модели, система будет оценивать новые заявления о страховой защите, классифицируя их по категории риска и возможному финансовому ущербу.

«Случайный лес»

Чтобы одиночное дерево решений давало точные результаты, его нужно обучать, алгоритм же случайного леса (random forest) использует «комитет» случайным образом созданных решающих деревьев с разными наборами атрибутов и дает возможность им проголосовать, чтобы выбрать самый популярный класс.

Случайный лес — универсальный, быстро обучаемый механизм для обнаружения связей внутри набора данных. В пример можно привести нежелательные массовые рассылки, создающие проблемы не только пользователям, но и провайдерам Интернета, которым из-за спама приходится иметь дело с повышенной нагрузкой на серверы. Для борьбы с проблемой были разработаны автоматизированные методы фильтрации спама, которые с помощью ансамбля решающих деревьев быстро и эффективно определяют нежелательные письма.

Среди других применений — диагностика заболеваний путем анализа медицинской карты пациента, распознавание банковских мошенничеств, прогнозирование числа звонков в колл-центрах и прогнозирование вероятности прибыли и убытка при покупке определенных акций.

Кластеризация

Кластеризация — это группирование элементов данных, имеющих сходные характеристики, с помощью статистических алгоритмов. Это метод обучения без учителя, который можно использовать для решения задач классификации.

Примеры: сегментирование покупательской аудитории в зависимости от характеристик для уточнения адресации маркетинговых кампаний; рекомендации новостей конкретным читателям; помощь в работе правоохранительным органам.

Кластеризация также действенна, когда в сложных наборах данных нужно обнаружить группы, которые трудно заметить без специальных средств. Примеры — от группирования похожих документов в базе данных до обнаружения по криминальным новостям территорий с повышенным уровнем преступности.

Поиск ассоциативных правил

Поиск ассоциативных правил — это метод обучения без учителя, позволяющий находить отношения между переменными. Используется в движках выдачи рекомендаций — именно этот метод применяется во многих интернет-магазинах для составления фразы «Вместе с этим товаром обычно покупают…».

Конкретный пример — повышение продаж в магазине деликатесов. Изучив покупательское поведение путем поиска ассоциативных правил, можно предлагать специальную упаковку и наборы для праздников и других особых случаев. Ассоциативные правила позволяют выяснить, когда и при каких обстоятельствах покупатели приобретают те или иные сочетания товаров. Используя сведения о прошлых покупках и времени их совершения, можно составить программу скидок и сформировать индивидуальные предложения с расчетом на повышение продаж.

— Bob Violino. Machine learning: When to use each method and technique. InfoWorld. SEP 6, 2018