ИТ с акцентом на «И» | Computerworld Россия | Издательство «Открытые системы»

Формально все началось чуть более года назад, летом 2006 года, когда корпорация IBM выступила с очередной инициативой под несколько неожиданным названием — Information on Demand. Наиболее примечательным — и для самой инициативы в целом, и для уже двух проведенных одноименных конференций IoD 2006 и IoD 2007 — является обозначившийся перенос центра тяжести с данных на информацию, что, собственно, и отражено в названии. Нельзя сказать, что подчеркивание особой роли информации является чем-то совершенно новым; об этом многие говорили и писали, однако ИТ-индустрия оставалась глухой к обращенным к ней призывам. И тем не менее на протяжении последних нескольких лет общая ситуация в отрасли стала меняться буквально на глазах. Внимание, которое в изменившихся условиях в IBM уделяют информации, свидетельствует о том, что корпорация одной из первых уловила намечающийся «сдвиг парадигмы», придавая ему особое значение. Отличие этой парадигмы от предшествующей в изменении системы ценностей; суть ее в том, что до сих пор главное предназначение компьютерных систем виделось в обработке и хранении данных, а сейчас наметилось смещение к работе непосредственно с информацией, к предоставлению информации потребителям. Если обозначившийся сдвиг действительно произойдет, то, быть может, наконец-то информационные технологии оправдают свое название и станут действительно информационными.

Современное соотношение «данные — информация» предопределено тем, что на протяжении шести десятилетий компьютерной истории информация оставалась в тени у данных. Как следствие ни одно из известных определений информационных технологий не указывает на информацию как на предмет или область действия этих технологий. Современные ИТ-специалисты практически поголовно не проводят различия между двумя смежными, но принципиально разными понятиями. Впрочем, в подчиненном положении информации по отношению к данным нет ничего странного. До тех пор пока объемы данных оставались относительно скромными и пока эти данные использовались в системах, где и производитель, и потребитель информации существовали в едином контексте, отождествление данных и информации оставалось вполне допустимым. Более того, в силу недостаточных ресурсов такой подход был вполне оправдан. Отождествление информации с данными принципиально ничему не мешало вплоть до середины нынешнего десятилетия, когда ситуация стала изменяться. Неизбежные же изменения в отношениях между информацией и данными можно обосновать двумя факторами: экспоненциальным ростом объемов хранимых данных и связанной с этим задачей управления данными, а также массовым появлением распределенных архитектур и разнообразных систем управления бизнесом, где отдельные модули существуют в собственном контексте.

Предвидя грядущие глубинные сдвиги, IBM и выступила с инициативой Information on Demand. В корпорации ее идеологическим лидером стал известный ученый Амбудж Гойял, генеральный менеджер подразделения по управлению информацией, входящего в состав IBM Software Group. Он же был главным действующим лицом на конференции IOD 2007, прошедшей в Лас-Вегасе в середине октября.

Накануне конференции он так описал сложившееся положение дел и предполагаемые шаги в новом направлении: «Мы в очередной раз стоим на перепутье, как это было в 1996 году, когда потребовались технологии, позволяющие создавать Web-сайты и развивать бизнес на основе Web. В ответ на это в отрасли родилась концепция специализированного сервера, предназначенного для Web-приложений, который собрал в себе отдельные приложения. В IBM эта концепция реализована средствами семейства продуктов WebSphere. Ситуация повторяется. Cейчас, как и тогда, в нашем распоряжении имеется множество разрозненных технологий, но на этот раз для работы с информацией. Среди них управление метаданными, средства извлечения, преобразования и загрузки информации (Extraction, Transformation, Loading, ETL), создания данных, механизмы интеграции и средства очистки и поддержи профилей. Аналогия с событиями 11-летней давности заключается в том, что эти технологии точно так же можно собрать в единую платформу, назвав ее, на этот же манер — Information Server. Этот сервер может служить одновременно и хранилищем, и шиной для обмена метаданными. Подобный информационный сервер можно рассматривать как универсальный инструмент для решения тех или иных информационных задач».

Эти слова Гойяла об информационном сервере являются ключевыми для понимания происходившего на IoD 2007; в сотнях сделанных здесь докладов были представлены технологии для работы с информацией, объединяемые в информационный сервер.

Происхождение Information on Demand

До того как стать маркетинговым девизом, словосочетание Information on Demand послужило названием статьи Холли Хаес и Нельсона Маттоса, опубликованной в 2003 году в журнале DB2 Magazine. Авторы обосновали необходимость в поддержке бизнеса информацией, свели эту поддержку к трем основным типам действий, выполняемых над данными с целью получения информации, — интеграция, автоматизация и виртуализация. Интеграция обеспечивает доступ ко всем информационным активам, автоматизация снижает стоимость и сложность работы с информацией, а виртуализация обеспечивает единый консолидированный взгляд на информационные ресурсы. На момент публикации статьи Хаес и Маттоса для реализации этой концепции использовался IBM DB2 Information Integrator 8.1, служащий для интеграции информации предприятия (Enterprise Information Integration, EII) и выполняющий функции программного обеспечения промежуточного слоя, реплицирующего данные. С его помощью можно собрать информацию из разных источников (баз данных Oracle, электронных таблиц Microsoft, репозитариев Documentum и т. п.), распределенных по разным платформам (Windows, Linux, Unix и z/OS).

Концепция федеративного взгляда на данные как на источник информации тоже не была чем-то принципиально новым — новой была лишь ее реализация в DB2 Information Integrator, включавшая модули DB2 DataJoiner, DB2 Relational Connect, DB2 Life Sciences Data Connect и IBM DiscoveryLink. Именно DB2 Information Integrator стал исходной точкой, с которой и началось движение IBM по направлению к «информации по запросу». Это следует иметь в виду при попытке осознать, что в данном случае понимается под «информацией» и под «запросом», чтобы не пытаться трактовать эти понятия слишком широко. Речь не идет об информации как части известной триады «данные-информация-знание», в данном случае представление проще и прагматичнее. Поэтому буквальный перевод выражения Information on Demand как «информация по требованию» и вызываемая им ассоциация могут скорее дезориентировать.

В том, что дело обстоит именно так, можно было убедиться на IoD 2007. Ни в одном из докладов, которые удалось прослушать, не прозвучало формальное определение того, что понимается под информацией, и того, как формулируются запросы. В личной беседе я попросил Гойяла дать определение понятиям «информация» и «по запросу», но безуспешно. Из его пояснений можно было сделать вывод, что сейчас самое главное заключается в развитии той идеи, которая была предложена в упомянутой выше статье, но на качественно новом уровне. Гойял понимает под IoD следующий шаг по отношению к управлению данными.

IBM сделала большую ставку на IoD, и это не удивительно. Аналитики сходятся в том, что сегмент рынка разнообразных технологий, экстрагирующих полезные сведения из данных, если можно так сказать, «порождающих информацию», к концу десятилетия заметно превысит 60 млрд. По словам Стива Милза, вице-президента IBM по программному обеспечению, корпорация намерена вложить в собственные исследования и разработки свыше 1 млрд. долл. Кроме того, IBM активно скупает профильные компании, каждая из которых специализируется в определенной области, — FileNet (управление корпоративным контентом), Unicorn (управление метаданными), iPhrase (поиск в текстах на естественных языках), DataPower (специализированные средства, поддерживающие исполнение и безопасность), Ascential (хранилища данных и интеграция данных), SRD (управление идентификацией) и т. д.

Информационный сервер

Термин «информационный сервер» (information server) был предложен специалистами IBM и используется как ключевой элемент IoD, однако этот класс программного обеспечения не так точно определен, как другие программные серверы, и не является законченным программным продуктом, как, скажем, сервер приложений или Web-сервер. Скорее информационный сервер можно рассматривать как интеграционную платформу, объединяющую основные функциональные модули. Такая платформа позволяет предприятию интегрировать данные из различных источников и далее, каким-то образом переработав эти данные в информацию, распределять ее. В отличие от грубых данных информация будет обладать такими качествами, как доверительность и полнота, то есть поступит нужным получателям в требуемых ими форматах. Информационный сервер удобно представить в виде трехуровневой модели:

аналитика и подготовка информации, нормализация и очистка, доставка;
параллельная обработка разных источников, работа с метаданными, объединение различных источников данных, администрирование;
серверы приложений и базы данных.

Воспользовавшись обычной для многоуровневых систем «капустной» аналогией, можно представить себе, что информационный сервер образует еще одну оболочку над данными и тем самым повышает степень абстрактности в их представлении. Гойял высказался по этому поводу так: «Вот уже несколько лет ведутся разговоры о серверах приложений и о серверах баз данных, но в самом близком будущем мир заговорит наравне с ними еще и об информационных серверах — это неизбежная тенденция в развитии информационных технологий. На самом деле каждая компания нуждается в собственном информационном сервере, доставляющем информацию в соответствующем контексте для аналитики и принятия решений».

На выставке, проходившей параллельно конференции, можно было увидеть и аппаратную реализацию информационного сервера Information Server Blade, построенного на базе BladeCenter HS21. Этот специализированный сервер позволяет уменьшить время выполнения задач, связанных с интеграцией информации на порядок и больше по сравнению с традиционными SMP-серверами.

Information Server Blade работает под управлением Red Hat Linux и Tivoli Workload Scheduler Loadleveler, на нем установлены сервер метаданных Metadata Server, средство для выделения, трансформации и загрузки DataStage, средство для проверки качества данных QualityStage, а также DB2 и WebSphere Application Server.

Впечатления

В отличие от многих других мероприятий, IoD 2007 нельзя назвать коммерческим и маркетинговым, как это часто случается. Конференция была местом, где, во-первых, вендор активно передавал знания своим партнерам, именно они были основной целевой аудиторий. Во-вторых, это было место массового «мозгового штурма», поскольку тема работы с информацией очень нова, есть необходимость в ее обсуждении и поиске решений. Особое значение имеет анализ того, какие требования предъявляют пользователи, что они понимают под полезной для них информацией. Не случайно существенную часть конференции заняли сессии Birds of Feather (этим идиоматическим выражением, близким по смыслу русскому «два сапога — пара» называют собрания для «своих», куда не пускают журналистов). И еще один показательный момент: многие документы, найденные на открытых сайтах IBM, если они так или иначе связаны с IoD, на самом деле оказываются закрытыми для посторонних; для доступа к ним требуется специальный идентификационный код.

Из увиденного на IoD 2007 несложно сделать вывод, что работы, связанные с новой парадигмой, в полном разгаре. Каждый год приносит новые результаты, и не все еще доступно для посторонних. Впрочем, отечественных пользователей это не должно заботить: у них потребность в технологиях Information on Demand возникнет через несколько лет, когда те достигнут зрелости.