IBM готовит Spark для машинного обучения

IBM выделяет значительные ресурсы на подготовку разрабатываемой в рамках Apache Software Foundation платформы Spark к решению задач машинного обучения, в том числе к распознаванию образов и классификации объектов.

Корпорация планирует предлагать Spark в качестве сервиса. Дальнейшим совершенствованием платформы будут заниматься 3,5 тыс. исследователей и разработчиков.

Проект Apache дополнен собственным программным обеспечением IBM — языком программирования SystemML, предназначенным для машинного обучения. В проекте примет участие компания Databricks, которая до настоящего времени вносила основной вклад в развитие Spark. Благодаря машинному обучению компьютерные системы смогут повышать свою производительность при выполнении отдельных задач по мере получения новой информации.

Корпорация планирует предлагать Spark в качестве сервиса; дальнейшим совершенствованием платформы будут заниматься 3, 5 тыс. исследователей и разработчиков
Источник: George Nikitin/IBM

«Spark предоставляет нам совершенно новый способ обработки данных, — указал директор по маркетингу аналитического подразделения IBM Джоэл Хоровитц. — Это очень мощная технология вычислений в памяти, имеющая достаточно простой для аналитиков и разработчиков интерфейс».

Платформа Spark, которую многие считают наследником Hadoop, платформы обработки Больших Данных, хорошо подходит для задач машинного обучения, требующих обычно построения мощных вычислительных кластеров.

В последней версии платформы появились дополнительные возможности для реализации алгоритмов машинного обучения.

«Машинное обучение — мощное средство извлечения из данных настоящих ценностей, — подчеркнул Хоровитц. — Алгоритмы машинного обучения особенно хороши при решении задач автоматической классификации, так как помогают устройствам лучше почувствовать окружающую среду. Прежде такие задачи требовали интенсивных вычислений, и решать их на одном сервере не представлялось возможным. Spark помогает координировать работу множества компьютеров и обеспечивает согласованность выполняемых ими операций».

IBM уже предлагает ряд сервисов на базе алгоритмов машинного обучения. Речь, в частности, идет о переводе с одного языка на другой и визуализации данных. Сервис Spark позволит разработчикам создавать и использовать собственные алгоритмы машинного обучения.

Spark будет доступен на облачной платформе для разработчиков IBM Bluemix и предложит простой способ загрузки данных, их изучения и передачи результатов другому приложению. Причем все это будет происходить без дополнительной настройки поддерживающей инфраструктуры.

Популярность Spark заметно выросла в прошлом году, когда увеличилось число компаний, применяющих анализ Больших Данных в повседневной деятельности. При обработке больших коллекций данных Spark активно использовали eBay, НАСА, Opentable и Yahoo.