IBM выделяет значительные ресурсы на подготовку разрабатываемой в рамках Apache Software Foundation платформы Spark к решению задач машинного обучения, в том числе к распознаванию образов и классификации объектов.
Корпорация планирует предлагать Spark в качестве сервиса. Дальнейшим совершенствованием платформы будут заниматься 3,5 тыс. исследователей и разработчиков.
Проект Apache дополнен собственным программным обеспечением IBM — языком программирования SystemML, предназначенным для машинного обучения. В проекте примет участие компания Databricks, которая до настоящего времени вносила основной вклад в развитие Spark. Благодаря машинному обучению компьютерные системы смогут повышать свою производительность при выполнении отдельных задач по мере получения новой информации.
Корпорация планирует предлагать Spark в качестве сервиса; дальнейшим совершенствованием платформы будут заниматься 3, 5 тыс. исследователей и разработчиков Источник: George Nikitin/IBM |
«Spark предоставляет нам совершенно новый способ обработки данных, — указал директор по маркетингу аналитического подразделения IBM Джоэл Хоровитц. — Это очень мощная технология вычислений в памяти, имеющая достаточно простой для аналитиков и разработчиков интерфейс».
Платформа Spark, которую многие считают наследником Hadoop, платформы обработки Больших Данных, хорошо подходит для задач машинного обучения, требующих обычно построения мощных вычислительных кластеров.
В последней версии платформы появились дополнительные возможности для реализации алгоритмов машинного обучения.
«Машинное обучение — мощное средство извлечения из данных настоящих ценностей, — подчеркнул Хоровитц. — Алгоритмы машинного обучения особенно хороши при решении задач автоматической классификации, так как помогают устройствам лучше почувствовать окружающую среду. Прежде такие задачи требовали интенсивных вычислений, и решать их на одном сервере не представлялось возможным. Spark помогает координировать работу множества компьютеров и обеспечивает согласованность выполняемых ими операций».
IBM уже предлагает ряд сервисов на базе алгоритмов машинного обучения. Речь, в частности, идет о переводе с одного языка на другой и визуализации данных. Сервис Spark позволит разработчикам создавать и использовать собственные алгоритмы машинного обучения.
Spark будет доступен на облачной платформе для разработчиков IBM Bluemix и предложит простой способ загрузки данных, их изучения и передачи результатов другому приложению. Причем все это будет происходить без дополнительной настройки поддерживающей инфраструктуры.
Популярность Spark заметно выросла в прошлом году, когда увеличилось число компаний, применяющих анализ Больших Данных в повседневной деятельности. При обработке больших коллекций данных Spark активно использовали eBay, НАСА, Opentable и Yahoo.