По данным Министерства культуры РФ, в стране сегодня работает 150 тыс. библиотек разных ведомств, в том числе 50 тыс. - государственных и муниципальных, чьи фонды насчитывают миллиард единиц хранения. Несмотря на экономические проблемы, библиотечное дело продолжает развиваться: внедряются новые технологии, открывающие широкой читательской аудитории доступ к уникальным источникам информации.
В ряде случаев, как, например, для Государственной центральной научной медицинской библиотеки, информация во всех смыслах становится источником жизни. От того, насколько быстро происходит поиск адекватной запросу информации, может заисеть как успех сложной операции, так и, например, эффективность исследований в области биомедицины.
Государственная центральная научная медицинская библиотека (ГЦНМБ) - крупнейшее в Европе специализированное хранилище информации по медицинской тематике, предоставляющее возможность работы с каталогами (алфавитным, предметно-тематическим, систематическим), осуществляющее выдачу литературы читателям. Основанная в 1919 году, библиотека насчитывает сегодня 15 каталогов, указывающих на 3 млн. томов хранения. Ежегодный прирост составляет 30 тыс. единиц хранения (названий). ГЦНМБ выписывает более 250 отечественных медицинских журналов и ежемесячно получает 800 наименований иностранной периодики, формируя свой фонд из 2200 зарубежных журналов. Это означает, что практически все официально зарегистрированные во всем мире издания по медицинской тематике представлены в ГЦНМБ. Кроме того, библиотека играет роль депозитария диссертаций по медицине, защищенных в России. Кстати, на фоне всеобщего спада, в медицине сегодня наблюдается подъем - в стране защищается свыше 5 тыс. диссертаций в год, что намного больше чем, например, в годы застоя.
Однако задача современной библиотеки состоит не только в расширении фондов и обеспечении возможности интерактивной работы с ними, но и в предоставлении новых информационных услуг. Сюда входят и мультимедийные массивы для обучения и списки наиболее популярных информационных ресурсов Internet по медицинской тематике, и доступ к первоисточникам, хранящимся за рубежом и еще ряд возможностей, реализация которых базируется на автоматизированных системах поиска и доставки библиотечной информации.
Истоки автоматизации
Еще в 1987 году Правительством страны было принято решение о создании полномасштабной национальной базы данных по медицине и здравоохранению. В качестве примера была взята система MEDLINE, обеспечивающая удаленный доступ к библиографической базе данных медицинской библиотеки США. Основная трудность при решении поставленной задачи - это большой объем накопленной в ГЦНМБ информации, которую необходимо обрабатывать с помощью информационно-поискового языка. Здесь нужны соответствующие поисковые средства. Одним из них и стал поисковый полииерархический тезаурус «Medical Subject Headings» (MeSH).
В 1988 - 1992 годах в ГЦНМБ был создан русскоязычный аналог американского тезауруса. Цель этой работы - предоставить возможность идентичного поиска как в зарубежных, так и в отечественных базах данных. Пользуясь таким тезаурусом, можно подбирать литературу из американской библиотеки и получать доступ к первоисточникам на русском языке и наоборот. На данный момент существует пять версий медицинского тезауруса: английская, французская, немецкая, русская и японская. Современная русскоязычная версия, подготовленная в ГЦНМБ, вошла сегодня в единую поисковую систему MEDLARS.
Еще до начала работ над тезаурусом, в 1986 году, специалистами ГЦНМБ была построена «идеальная» модель организации доступа к библиотечным фондам, содержащая логическую структуру работы пользователя с данными. Впоследствии вся деятельность по автоматизации библиотеки была направлена на реализацию для разных аппаратно-программных платформ сначала отдельных частей, а потом и всей этой модели. В 1989 году имелась версия, работающая на 30 ПК и двух серверах на базе i386. Это был период расцвета «муравьиной» технологии: книги «перемещались» между машинами вместе с дискетами. Но, тем не менее, логика работы соответствовала принятой модели. Впоследствии была выполнена реализация для более серьезных и надежных платформ.
Ежедневно библиотеку в среднем посещает 400 человек, каждый из которых обычно работает с каталогом. Кроме этого 1500 медицинских библиотек России являются коллективными пользователями ГЦНМБ: крупные клиники, университеты и научные центры, имеющие доступ в ГЦНМБ через Сеть. В 1988 году началось создание национального электронного каталога по медицине, куда вошли 400 тыс. документов: монографии, книги, а самое главное, статьи из всех русскоязычных медицинских журналов, институтских сборников и конференций, тираж которых иногда составляет всего 200-300 экз., что делает их печатный вариант практически недоступным широкому кругу читателей. В результате развертывания электронного каталога еще девять лет назад была создана среда, обеспечивающая полноту охвата по всем российским источникам и позволяющая сделать достоянием каждого врача накопленный в отечественной медицинской практике опыт.
В эпоху локальных сетей в ГЦНМБ было проведено объединение всех ПК в сеть и тогда от АРМ к АРМ стали «двигаться» только книги - это случилось в 1991 году, а в 1993 ГЦНМБ была подключена к коммутируемому каналу ЛИБНЕТ, объединяющему пять московских библиотек. Учитывая качество связи, доступ к литературе был тогда чисто символическим, однако эта система работала и позволяла обслуживать 250 персональных пользователей. Опять же технология, соответствующая «идеальной» модели, не претерпела каких-либо изменений. Пользователь не заметил модификаций - внешне все также, правда, расширился круг поиска и уменьшилось время отклика.
Сегодня библиотека предоставляет возможность одновременной интерактивной работы 50-70 пользователей в секунду, обслуживая ежедневно более 1000 абонентов, получающих удаленный доступ к фондам в 15 млн. единиц хранения |
В 1995 году назрела необходимость перехода на новую платформу - дальнейшая модернизация и коммутируемых каналов была признана бесперспективной. Электронный каталог - это чрезвычайно дорогой продукт, и содержащаяся в нем информация рассчитана на длительное хранение, поэтому нельзя делать его на ненадежных, дешевых платформах, хотя бы с точки зрения национальной безопасности. Потеря каталога равносильна закрытию библиотеки, которая после этого превращается в склад неизвестно чего. Если перезагрузка в случае потери данных будет длиться месяцы (а именно так и происходит при работе с самопальными системами), то библиотека просто не работает - останавливается учебный процесс, нарушается процесс поиска новых методов лечения, срываются планы научных исследований и т.п. Конечно, пока имеется бумажный аналог электронного каталога, такой мрачной картины может и не быть, однако в ряде зарубежных библиотек, фонды которых меньше, чем в Российской Национальной Библиотеке или Российской Государственной Библиотеке, уже отказались от ведения бумажного каталога. Кроме того, библиографическое описание обходится недешево, например, в США его стоимость составляет 20-60 долл. за единицу хранения.
Стало очевидно, что настало время серьезных решений. Несмотря на широко разрекламированные возможности ПК серверов и станций, архитектуры на базе мэйнфреймов и RISC еще очень далеко впереди по пропускной способности шин, быстродействию, да и совокупная стоимость владения для этих, казалось бы, дорогих систем оказывается ниже, чем для сети ПК. Как подтверждает опыт не только ГЦНМБ но, например компании «Росвооружение» или «Газпром», для поисковых задач в условиях централизации на первый план выходят быстродействующие каналы в/в, недорогие терминальные устройства доступа и надежное, апробированное ПО.
День сегодняшний
Что делается наскоро, живет недолго, поэтому только спустя почти десять лет, отработав модель на разных реализациях, сотрудники ГЦНМБ убедились в правильности принятых решений. Сегодня библиотека предоставляет возможность одновременной интерактивной работы 50-70 пользователей в секунду, обслуживая ежедневно более 1000 абонентов, получающих удаленный доступ к фондам в 15 млн. единиц хранения из 1500 библиотек. ГЦНМБ - единственная организация, способная выполнять широкомасштабную работу по информационному обеспечению медицинских работников.
Сегодня для библиотечной системы страны и, в частности, для ГЦНМБ, возникли новые условия, способствующие использованию информационных технологий.
- Экономические причины. Слишком дорого сегодня приезжать за литературой из Иркутска, Тюмени и даже Перми. Еще недавно в библиотеке было 40% иногородних читателей, а сегодня только 5-6%. Правда, имеется межбиблиотечный абонемент, но он работает только когда нужный источник информации уже найден, известны его реквизиты и остается только заказать и переслать книги или статьи по почте - имеется конкретное задание на получение конкретного первоисточника. Но как найти эту информацию? Распространяемые по регионам печатные указатели очень дороги и обычно относятся к узкой тематике или небольшому периоду времени. В какой-то мере задача поиска облегчается при работе с каталогом на CD-ROM, который уже пять лет выпускает ГЦНМБ. Диск позволяет специалистам в регионах работать с указателем «Российская медицина», содержащим ссылки на все первоисточники, вышедшие с 1988 по 1999 год.
- Человеческий фактор. Высокая трудоемкость ручного поиска: 70% всего времени работы с документом уходит на его поиск. Причем от рядового читателя обычно требуется знание системы каталогов, что не всегда оправданно. Внедрение системы электронных каталогов с автоматизированным поиском позволило выделять на работу с собственно документами 95% времени и только 5% на его поиск. Однако стала актуальной задача доставки читателю найденного первоисточника.
- Технологические изменения. Широкое распространение Internet, технологий хранения и средств телекоммуникаций позволило врачам и специалистам региональных клиник и центров вести поиск информации непосредственно на своих рабочих местах.
- Субъективные факторы. Некоторые изменения в области финансирования отечественной медицины позволяют поддерживать более надежные и эффективные решения по поиску информации.
Инструмент, технология и партнер
Когда принималось решение о том, какой аппаратно-программной платформе для решения задачи поиска отдать предпочтение, ГЦНМБ было из чего выбирать.
В качестве базовой информационно-поисковой системы первоначально планировалось использовать ISIS, поставляемый тогда МЦНТИ, однако для больших библиотек это оказалось тупиковым направлением, тем более, что вскоре данный продукт перестал поддерживаться. Фонды ГЦНМБ постоянно расширяются, требуется обеспечивать надежность хранения и качество доступа при все возрастающем количестве пользователей. Заниматься разработками системы собственными силами библиотеке не позволяют средства. Обычно создание таких систем проводится при непосредственном участии государства, которое заботится о своих стратегических интересах, создавая отечественную систему автоматизации библиотечного дела. В любой уважающей себя стране имеется собственная разработка, интегрированная в мировое информационное пространство. Причем это верно всегда, даже, например, для Канады, которая, несмотря на общность языка и единые стратегические интересы, все же создала свою систему, а не позаимствовала ее из США. Россия, к сожалению, как всегда исключение - у государства нет средств на инвестиции в библиотечные проекты.
Теперь по поводу выбора инструмента. По словам Бориса Логинова, директора ГЦНМБ, несколько лет назад был «в моде» переход от мэйнфреймов к RISC и средам реляционных СУБД Oracle, Informix и Sybase, однако ни одна из них не имела тогда средств поиска по неструктурированным данным.
Почему для ГЦНМБ так важен полнотекстовый поиск? Библиографическое описание, соответствующее, кстати, международным стандартам, представляет собой список из 200 полей, внутри каждого из которых размещается неструктурированный текст. Поэтому, несмотря на то, что эксперт (а их в ГЦНМБ около 100 человек плюс 23 индексатора) уже проиндексировал первоисточник, заполнив стандартные поля, после чего документ в прямом смысле уже не является полнотекстовым, тем не менее, имеется двойной поиск: форматный - по полям и свободный, полнотекстовый внутри этих полей. У ГЦНМБ имелись другие причины, чтобы выбрать ADABAS компании Software AG:
- широкое распространение в нелегальном варианте, что косвенно свидетельствовало о надежности и признании специалистами (аналогично, сегодня интенсивно раскручивается ОС Solaris и SCO UnixWare);
- устойчивая поддержка работы с базами данных большого объема;
- простота освоения;
- сильная команда разработчиков и система поддержки.
Определенную роль сыграло и то, что в СУБД имелся механизм настройки на языковые особенности текста первоисточника. Например, что при поиске и индексировании следует считать словом, а что словосочетанием, особенно если учитывать, что специфика медицинской терминологии - это составные термины? С помощью имеющихся у ADABAS возможностей удалось реализовать уже отработанную в ранних версиях электронного каталога ГЦНМБ процедуру индексирования с помощью тезауруса - путем вычленения терминов из исходного текста в соответствии со словарем.
Остановившись на ADABAS, ГЦНМБ, а точнее партнер библиотеки - отечественная компания ДИТ-М (Документально-Информационные Технологии), уже десять лет работающая на рынке библиотечных систем - приобрела лицензию на комплект разработки. Для промышленной эксплуатации в ГЦНМБ запущена система OPAC-R (Online Publick Acsess Catalog), представляющая собой российскую реализацию стандартного поискового модуля. Созданная компанией ДИТ-М система OPAC-R обеспечивает удаленный доступ к электронному каталогу для практически неограниченного числа абонентов и поддерживает отечественные и международные библиографические стандарты. Особенно надо отметить, что внутренним форматом представления данных является RUSMARC - российская версия международного формата UNIMARC. Благодаря этому библиотечные системы, использующие OPAC-R, обеспечивают единое, открытое для внутренних и внешних потребителей информационное пространство для национальных библиотек, независимо от их специализации. В целом проблема удаленного поиска в электронных архивах ГЦНМБ сегодня решена.
Особенности библиотечного проекта
Ориентация на стандарты при разработке системы OPAC-R вовсе не означала, что многое было скопировано с зарубежных аналогов. Например, был разработан оригинальный поисковый интерфейс, предоставляющий пользователям возможность самим настраивать систему на конкретную форму работы: определять поля, устанавливать параметры выбора, строить любые поисковые выражения, компилировать произвольные поисковые предписания неограниченной сложности, и т.п.
Другая важная особенность системы OPAC-R, работающей сегодня в ГЦНМБ, Российской национальной библиотеке, Свердловской областной научной универсальной библиотеке - авторитетные файлы, применяемые для идентификации элементов поискового предписания (запроса). С этой целью используется набор справочных данных: тезаурусы, коллективные авторы, псевдонимы, составные фамилии и т.п. Для того, чтобы выявить информацию по конкретному физическому лицу - автору, требуется дополнительный справочный материал. Особенно это необходимо для поиска коллективных авторов (институтов) или издательств, которые часто меняют свои названия, переименовываются, сливаются, реструктуризируются и т.п. Система авторитетных файлов с помощью специальных баз отслеживает происходящие изменения, позволяя, например, найти коллективного автора (медицинский центр) по любому названию, которое в момент поиска вспомнил пользователь.
Кроме режима ретро-поиска, о котором до сих пор шла речь, для ГЦНМБ реализован еще режим ИРИ (избирательного распространения информации). Пользователю по заранее сформированным, фиксированным запросам выдается информация о первоисточниках, появившихся за прошедший месяц. Данный режим, возможно, скоро отойдет в прошлое - слишком много «шума» (2-3 тыс. документов), за который приходиться платить. Сейчас ученым дешевле (особенно на базе финансирования по грантам) сформулировать и отработать на поисковом языке свой запрос, максимально эффективно выполняющийся на всей корпоративной базе медицинских данных.
Однако главное достижение ГЦНМБ - это автоматизированный тезаурус, состоящий из 36 тыс. увязанных между собой терминов. Каждый год в медицине меняется 1-1,5 тыс. дескрипторов (работу по их выявлению выполняет группа лингвистов в Институте здоровья США): изменяется терминология, появляются новые понятия, подтверждается устойчивость терминов, выделяются тенденции. Вокруг тезауруса имеется пул из 200 тыс. терминов - входные термины, претенденты на включение в словарь. Кстати, стоимость поддержки такого тезауруса в США составляет десятки млн. долл.
Окончательный диагноз и рекомендации
Система поиска OPAC-R сегодня работает в режиме промышленной эксплуатации в ГЦНМБ, в межбиблиотечном on-line центре компании ДИТ-М и готова для тиражирования в других библиотеках национального, отраслевого, регионального и муниципально-городского уровня. Система получила признание за рубежом как одна из немногих отечественных разработок такого уровня, позволяющая создавать корпоративные информационно-библиотечные системы. Сегодня идет реализация проекта между ГЦНМБ и немецким институтом медицинской информации и документации (DIMDI, Кельн). Примечательно, что модель и технология поиска для пользователей внешне не изменилась с 1986 года - система инвариантна во времени.
Сейчас ГЦНМБ работает в первую очередь над созданием максимально удобной среды для поиска нового знания в уже накопленных массивах информации. Кроме инструмента поиска и визуализации документов пользователю требуется сегодня аппарат анализа и выявления скрытых взаимосвязей в очевидных и незначительных, на первый взгляд фактах. Новая мысль, идея подобны айсбергу, большая часть которого скрыта под грузом миллионов единиц хранения библиотечных фондов. Все это возможно при переходе к цифровым библиотекам.
Однако развитие средств связи и появление полномасштабных архивов документов в качестве более актуальной выдвигает сегодня задачу доставки потребителю документов, найденных с помощью электронных каталогов. Примечательно, что, по словам Бориса Логинова, партнеры ГЦНМБ, компании ДИТ-М, Software AG и IBM оказались вполне готовы к этому этапу в развитии автоматизированных библиотечных систем. Например, сейчас начаты работы над пилотным проектом по развитию системы OPAC-R в направлении широкого использования нового продукта Tamino, поддерживающего в среде любой СУБД работу с данными в формате XML, ориентированного на работу с полнотекстовыми (мультимедийными) документами, размещаемыми в Internet.
Для реализации пилотного проекта потребуется масштабирование платформы с целью повышения ее надежности и производительности - скорее всего, это будет линия IBM S/390. Вообще говоря, надежность и устойчивость библиотечных систем - это один из основных вопросов, решение которых выходит за рамки ИТ, библиотечного дела и граничит с проблемой обеспечения национальной безопасности. Электронные библиотеки обладают подчас бесценной для страны информацией, которая должна храниться сколь угодно долго (если не вечно), а, следовательно, и инструмент построения таких библиотек должен быть соответствующим.
Другое важное замечание, вытекающее из опыта ГЦНМБ - создание информационных технологий по масштабу и возможностям сравнимых с OPAC-R не может и не должно решаться силами одной библиотеки. Для этого нет необходимой финансовой основы и невозможно развивать универсальные технологии, одинаково удобные для всех библиотек, архивов и информационных агентств. Именно вследствие того, что OPAC-R изначально разрабатывалась как универсальная информационно-библиотечная система, стала возможной ее инсталляция в библиотеках, имеющих совсем другую, чем у ГЦНМБ, специфику, объем единиц хранения и число абонентов. Речь идет об одной из двух крупнейших в стране библиотек - Российской национальной библиотеке (г. Санкт-Петербург), имеющей 35 млн. единиц хранения, библиотеке регионального уровня - Свердловской областной научной библиотеке им. В. Г. Белинского (г. Екатеринбург), а также городских и муниципальных библиотеках, например, Публичной Центральной городской библиотеке им. Н. А .Некрасова в Москве.
Система OPAC-R |
Подсистема OPAC-R, входящая в состав интегрированной библиотечно-информационной системы ИБИС компании ДИТ-М, обеспечивает удаленный доступ к ресурсам крупномасштабных хранилищ библиотечных данных. Основные функции:
Благодаря возможностям ADABAS A, NATURAL и Entire серверная часть OPAC-R может работать на всех популярных аппаратных платформах и под управлением различных ОС: UNIX, VMS, OS 390 и NT. Доступ к базам данных осуществляется с клиентского места ADABAS и через интерфейс любого Web-браузера. Поддерживаются протоколы IP, X.25 и разнообразные каналы связи (коммутируемые, радио, волоконно-оптические). Что касается конкретной конфигурации для ГЦНМБ, то сегодня это: IBM RS6000 F30 и ОС AIX, Broker для HTML и Internet, выход на который осуществляется через физический канал 10 Мбит/с., Cisco Catalyst и Switch 1000. А все остальное — тщательно проработанная еще в 1988 году технология работы. |