О значимости работы можно судить по тому, что ей присвоили имя основателя IBM Томаса Уотсона (Иллюстрация: IBM) |
Победа суперкомпьютера IBM Watson в игре Jeopardy!, разумеется, интересна, но не менее интересно то, что, одержав ее, корпорация намерена усилить аналитическое направление и вложить в ближайшее время 100 млн долл. в исследования в области аналитических систем. На пересечении суперкомьютеров, облаков и Больших Данных образовалась горячая точка, которая называется Smarter Computing, то есть более умный, нежели сейчас, компьютинг.
Watson — это система, которая состоит из трех компонентов: суперкомпьютера, работающего под управлением операционной системы Linux; программного обеспечения, реализующего архитектуру UIMA (Unstructured Information Management Architecture); системы ответов на вопросы DeepQA, специально «заточенной» под Jeopardy!. Центральной частью и, возможно, наиболее важной на последующую перспективу является UIMA.
DeepQA относится к классу вопрос-ответных систем (Question Answering, QA), предназначеных для поиска точных ответов на вопросы, поставленные на естественном языке. Источником сведений могут быть неструктурированные данные (книги, журналы, веб-страницы, блоги), квазиструктурированные (справочники, словари, энциклопедии, вики и ее аналоги) и базы данных. Архитектура UIMA разрабатывалась в IBM Research еще с 90-х годов группой, насчитывавшей порядка 200 сотрудников. Их деятельность была сосредоточена на средствах для работы с естественными языками и выделения полезной информации, на создании систем для анализа текстов и классификации документов, на машинном переводе и вопрос-ответных системах.
Помимо таких очевидных задач, как генерация гипотез, сбор доказательств, анализ и численная оценка, пришлось решать и специфичные задачи: улавливание иронии, обнаружение скрытого смысла и других человеческих особенностей. Поиск ответа на вопрос в игре совсем не похож на поиск данных в Web, здесь ищутся не сведения, а точный ответ, поэтому источником для поиска ответов служит собственная СУБД, куда занесены и структурированные, и неструктурированные данные, собранные из множества источников.
Принципы, отработанные в игре, сначала будут распространены на медицинские диагностические системы. Но этим дело не ограничивается, корпорация анонсировала пакет ПО и услуг IBM InfoSphere BigInsights. Он включает модуль BigInsights Core, позволяющий развернуть специализированные аналитические средства и рабочие нагрузки для извлечения знаний из массивов данных в масштабах всего Интернета; технологию предварительного просмотра IBM BigSheets, которая дает возможность извлекать, снабжать комментариями и визуализировать информацию, добытую из огромных массивов данных, через веб-интерфейс.