Если информация - это деньги, то Internet и внутрикорпоративные сети - это золотые жилы. Нужно только дать возможность пользователям разрабатывать их. В последнее время начала формироваться новая категория программных продуктов, называемых механизмами поиска в узле или механизмами узлового поиска. Они могут оказаться ценным инструментом при извлечении "золотых крупиц" из информационных залежей.
Новые механизмы поиска отличаются от таких известных механизмов поиска информации в Internet, как Alta Vista и Yahoo. Последние, сами являясь узлами сети, в которых хранятся ссылки на другие открытые для всеобщего доступа узлы World Wide Web, помогают пользователям найти нужную им информацию в Internet. Новые же механизмы узлового поиска - это программы, размещаемые в корпоративной сети или в узле Web и помогающие найти документ в этом узле.
В предлагаемом вниманию читателей обзоре мы коснемся пяти механизмов узлового поиска: Excite for Web Servers 1.0 (компании Excite), Index Server 1.0 (Microsoft), Catalog Server 1.0 (Netscape Communications) и LiveLink Search 6.0.5 (Open Text). Мы также провели испытания программы CyberSearch (разработана компанией Frontier Technologies), которая как составная часть входит в созданный этой компанией пакет для работы во внутрикорпоративной сети - Intranet Genie. Программа CyberSearch основана на механизме поиска, разработанном компанией Verity.
Приятно отметить, что все механизмы поиска работают очень хорошо. Однако эти продукты заметно отличаются друг от друга по своим возможностям. Здесь можно выделить компанию Open Text: ее программа способна находить документы практически всех типов.
При некоторых различиях в деталях, все механизмы узлового поиска работают практически одинаково. Большинство из них управляется через браузер, размещенный на том же, что и программа, или на другом сервере. Программы генерируют ссылки на файлы, найденные в заданной области поиска. Все механизмы поиска могут находить файлы, хранящиеся в различных местах на одном сервере; большинство программ может осуществлять поиск файлов на разных серверах сети.
Все механизмы поиска способны давать ссылки на гипертекстовые документы HTML и файлы обычного текстового формата. Однако при работе во внутрикорпоративной сети пользователю могут понадобиться и документы других типов. Некоторые программы отыскивают файлы, созданные в рамках пакета Microsoft Office или пакета Office компании Corel - письма, отчеты, электронные таблицы и демонстрации. Некоторые механизмы, кроме того, ведут поиск файлов формата PDF (Portable Document Format, формат переносимого документа), разработанного компанией Adobe для электронной публикации документов и помещения их в Web, а также файлов электронной почты и групп новостей в Internet.
Все механизмы поиска совместимы с браузерами Navigator компании Netscape и Internet Explorer компании Microsoft. Базовый поиск может проводиться по ключевым словам или по темам. При поиске по ключевым словам программа ищет буквальные совпадения, а при тематическом поиске используется тезаурус (словарь синонимов), с помощью которого выявляются связанные между собой термины. Например, тема "спорт" может охватывать такие термины, как "спортивные товары", "бейсбол", "плавание" и т. д.
Большинство программ обладают усовершенствованными средствами поиска, призванными сделать результаты каждой поисковой операции более точными. Среди таких средств можно упомянуть логический поиск (с использованием логических выражений "и", "или", "не"), поиск на точное совпадение, поиск в заданной окрестности (ищется указанное слово или фраза, расположенная рядом или на расстоянии заданного количества слов или фраз от второго указанного слова или фразы). Есть и специальные операции, включающие поиск среди цифровой и хронологической информации. Некоторые механизмы также имеют возможность проводить поиск среди заданных параметров, например среди имен авторов электронных таблиц в Microsoft Excel, среди названий документов, или находить файлы указанного размера. Для иностранных компаний и многонациональных корпораций, располагающих узлами Web с информацией на разных языках, может оказаться полезной поддержка других языков, кроме английского.
В данный момент пользователям, работающим в Internet или во внутрикорпоративных сетях с сервером Internet Information Server (IIS) 2.0, рекомендуется использовать механизм поиска Index Server. Программа Excite распространяется бесплатно и может использоваться без каких-либо ограничений. А вот механизм поиска Catalog Server компании Netscape является, пожалуй, наилучшим вариантом вложения денег. Довольно специальная задача поиска сообщений в электронной почте и группах новостей по силам лишь одной программе - LiveLink Search.
Несмотря на то, что все механизмы узлового поиска работают достаточно хорошо, они постоянно подвергаются дальнейшему совершенствованию. В начале следующего года большинство разработчиков планируют выпустить новые версии поисковых программ. Можно ожидать, что новые версии окажутся еще более удобными для работы с Web или во внутрикорпоративной сети, поскольку они будут работать быстрее, приобретут более развитые средства поиска и смогут находить документы среди более широкого набора форматов.
Обзор механизмов узлового поиска
Продукт: Excite for Web Servers 1.0 Компания: Excite Оценка: С+ Достоинства: Совместима со многими платформами, тематический поиск, невысокая цена. Недостатки: Отсутствует поиск хронологической и цифровой информации, даются ссылки только на текстовые и HTML-файлы, отсутствует возможность поиска на других серверах.
Одна из самых привлекательных особенностей программы Excite for Web Servers 1.0 - это то, что она практически идентична широко известному поисковому узлу Web с тем же названием. Она совместима с большим количеством серверов и очень недорога (распространяется бесплатно), однако право на техническую поддержку стоит 1000 долл. Основной недостаток программы - она работает так же, как и одноименный узел Web.
Что касается поиска информации, то Excite хорошо справляется с задачей поиска текстовых и HTML-документов. В распоряжении Excite имеется достаточное количество логических операторов, чтобы сузить область поиска. Эта программа - одна из немногих, способных проводить тематический поиск. Время генерации ссылки и полное время поиска получили оценку "хорошо".
Недостатком Excite является ее возраст. Программа не дает ссылок на документы, созданные в рамках пакета Office, не проводит она поиска и среди массивов хронологической или цифровой информации, что могут делать другие, более современные программы. Нелегко также искать с ее помощью файлы, хранящиеся на нескольких серверах.
Хотя версия операционной системы Windows NT 4.0 потребовала некоторой ручной настройки для работы Excite, специальная версия NT, выпущенная в конце прошлого месяца, уже не имела этих недостатков. Вскоре следует ожидать появления новой версии Excite (1.1), в которой будут исправлены некоторые недочеты, встречающиеся в версии 1.0. Программа Excite остается удобным и знакомым уже многим пользователям средством поиска информации в корпоративных узлах Web.
Продукт: Catalog Server 1.0 Компания: Netscape Communications Оценка: B+ Достоинства: Совместима со многими платформами, возможен поиск файлов различных типов, имеется возможность выделять вновь появившуюся информацию. Недостатки: Отсутствует тематический поиск, сложна в управлении.
Очень гибкая и быстрая в работе, программа Catalog Server 1.0 одинаково уверенно справляется с поиском информации в узлах Web и в корпоративных сетях. Программа, совместимая с большим числом серверов, обладает полным набором стандартных и многими из нестандартных, но популярных критериев поиска.
Catalog Server отлично справляется с поиском информации во внутрикорпоративных сетях. Программа генерирует ссылки на документы в текстовом и HTML-форматах, на файлы, созданные в рамках пакетов Microsoft Office 95, WordPerfect (компании Corel), AmiPro (компании Lotus Development), а также дает ссылки на файлы в формате PDF (разработан компанией Adobe). Программа способна поддерживать разные ссылки для разных классов пользователей, поэтому, например, сотрудникам отдела реализации не придется искать документы в разделах, находящихся в ведении бухгалтерии.
Catalog Server - единственная программа, которая обеспечивает удобный поиск вновь появившейся информации (функция "What"s New") и "популярной" информации ("What"s Popular") - функции, более характерные для Internet, чем для работы во внутрикорпоративной сети.
Программа совместима со всеми серверами Web, но лучше всего она работает с серверами Commerce и Enterprise компании Netscape. Управление программой сложнее, чем у других аналогичных продуктов, и реализуется оно через браузер Netscape. Последний имеет один очень досадный недостаток: установить его чрезвычайно просто, но вот для того, чтобы его настроить, нужно вводить с клавиатуры длинные пути к файлам, хранящимся на разных каталогах и даже на разных серверах. Из-за отсутствия в браузерах кнопки просмотра ("Browse"), облегчающей внимательный просмотр содержимого каталогов, нам часто приходилось использовать программу Windows Explore для определения путей к нужным файлам и затем вручную вводить их с клавиатуры.
Продукт: Index Server 1.0 Компания: Microsoft Оценка: В Достоинства: Высокое быстродействие, простота использования, гибкий поиск и генерация ссылок. Недостатки: Ограничена платформами NT, отсутствует тематический поиск.
Программу Index Server 1.0 легко установить, она проста в использовании, быстра и результативна. Как и Catalog Server, программа Index Server предлагает практически все стандартные и дополнительные критерии поиска и может находить информацию, содержащуюся в файлах текстового и HTML-формата, а также в файлах, созданных с помощью пакета Office 95. Index Server может искать файлы по их имени, размеру и дате создания, а документы в формате Office - по таким признакам, как их название или автор.
Генерируя ссылки на документы, хранящиеся в разных каталогах или на разных серверах, Index Server может хранить их как в общем, так и в отдельных списках, соответствующих разным каталогам или серверам. Программа использует средства безопасности, имеющиеся у платформы NT, чтобы лишить пользователей возможности искать информацию в тех областях, к которым они не имеют отношения.
Установить программу очень просто. Управляется она либо с помощью специальной программы, размещенной на том же сервере, либо через браузер; процесс управления предельно прост.
Хотя результаты поиска доступны любому клиенту, имеющему браузер для Internet, Index Server работает на машинах NT с установленным на них сервером Microsoft Internet Information Server. Если ваш узел может управляться NT-сервером, то сочетание возможностей программы Index Server с невысокой ценой (программа включена в комплект поставки NT) делают эту программу просто неотразимой.
Продукт: LiveLink Search 6.0.5 Компания: Open Text Оценка: А Достоинства: Совместима со многими платформами, гибкий поиск, генерирует ссылки на документы почти всех типов. Недостатки: Высокая цена, сложность.
Для программы LiveLink 6.0.5 не имеет значения, с какой операционной системой, на какой машине или с каким Web-браузером работать. Это механизм поиска документов, включающий в себя сервер Commerce Server компании Netscape. LiveLink предлагает широкий набор стандартных и специальных средств поиска.
Программа распознает очень большое количество типов документов, среди которых можно отметить текстовые и HTML-документы, файлы в формате Microsoft Office 95, PDF-файлы, сообщения электронной почты и файлы из групп новостей в Internet. В процессе своей работы LiveLink преобразует найденные документы, имеющие формат, отличный от HTML, поэтому серверу не требуется намного больше памяти, чтобы создать на них ссылку.
Скорость генерирования ссылок и их величина, так же как и скорость работы программы, вполне сравнимы с другими аналогичными продуктами. Процесс настройки программы более сложен, чем настройка других сходных серверов.
LiveLink рекомендуется использовать в тех случаях, когда программу можно совместить с другими инструментами коллективной работы, например, с программами территориального управления документооборотом или координации управления проектами. Для обычных задач поиска документов LiveLink может оказаться избыточно мощной программой.
Продукт: Intranet Genie Компания: Frontier Technologies Оценка: В Достоинства: Годится и для внутрикорпоративных сетей, и для Internet, работает в одноранговых средах. Недостатки: Совместима только с Windows 95 и NT и работает только с пакетом Intranet Genie; ограниченная языковая поддержка неанглийских документов.
Программа Intranet Genie - это полномасштабная система для разработки внутрикорпоративных сетей, способная работать и в сети Web. Составной частью в нее входит программа CyberSearch, основанная на механизме поиска, который разработан компанией Verity. CyberSearch, способная искать документы как во внутрикорпоративных сетях, так и в Internet, получила неплохие отзывы испытателей.
Intranet Genie работает под операционными системами Windows 95 и Windows NT (рабочая станция и сервер), и это единственный механизм поиска, действующий в одноранговых средах. Программа имеет почтовый и Web-серверы, сервер новостей, инструментарий для работы в Web, HTML-конвертеры и программное обеспечение клиента.
В целом, CyberSearch производит впечатление значительно усиленной версии исходного поискового механизма. Время генерации ссылок и скорость поиска документов получили оценку "хорошо". Главное отличие CyberSearch от исходного механизма поиска заключается в том, что CyberSearch управляется не браузером, а содержит собственные средства управления. Поэтому интерфейс пользователя более сложен, но принципы управления постигаются довольно быстро.
Программу CyberSearch имеет смысл рассматривать только как часть системы Intranet Genie, предназначенной для работы во внутрикорпоративной сети. Если ваша организация имеет внутрикорпоративную сеть небольших или средних размеров, то Intranet Genie для нее подойдет. Но если у вас уже есть другой сервер, то лучше отказаться от CyberSearch и остановить свой выбор на каком-нибудь другом механизме поиска.
Методика тестирования механизмов узлового поиска
Для проверки качества работы механизмов поиска был организован специальный узел Web, содержащий примерно 2000 страниц, созданных в формате HTML 3.0, и графические файлы в формате GIF. Информация хранилась на двух разных компьютерах. Первый был моделью ProSignia с процессором Pentium/150 МГц, объемом оперативной памяти 64 Мбайт и объемом жесткого диска 2 Гбайт (шина SCSI). Характеристики второго компьютера: сервер ProLinea с двумя процессорами Pentium/166 МГц, объемом оперативной памяти 128 Мбайт и двумя жесткими дисками объемом 2 Гбайт каждый (шина Fast/Wide SCSI) в зеркальной конфигурации. Обе машины были изготовлены компанией Compaq.
На обоих компьютерах была установлена операционная система Windows NT Server 4.0 или NT Server 3.51 (если тестируемый продукт несовместим с версией 4.0). Работа механизмов узлового поиска проверялась либо относительно программы Microsoft IIS 2.0, либо относительно Netscape Enterprise Server 2.0.
Другие программы поиска
Хотя мы обращались ко всем основным производителям механизмов поиска, не все из них оказались представленными в данном обзоре.
Компания Verity не прислала экземпляр своего механизма поиска. Однако этот механизм является частью пакета Intranet Genie, характеристика которого приведена в обзоре, и частью системы Intra.doc 2.0, разработанной компанией IntraNet Solutions (www.intranetsol.com) и анонсированной в конце сентября.
Мы получили экземпляр программы Retrievalware компании Excalibur Technologies (www.excalib.com), но ее тестирование не удалось провести в необходимые сроки.