SGS-Thompson
Texas Instruments
"Пауки" на Всемирной паутине
Прясть ли паутину?

Удачна ли концепция intranet? Какое-то время в SGS-Thompson Microelectronics, многонациональном концерне c штаб-квартирой в Париже, считали именно так. Однако затем так много отделений установили Web-серверы для внутреннего использования, что у менеджеров информационной службы не было никакой возможности следить за ними или ресурсами, которыми они располагают. По другую сторону Атлантики компания Texas Instruments (TI) столкнулась со схожей проблемой: как может пользователь быстро найти интересующую его информацию при большом и продолжающем увеличиваться количестве серверов intranet?

Компании воспользовались помощью "пауков" - программ, которые создают каталог сети при помощи рекурсивного поиска. Администратор указывает "пауку" конкретные Web-серверы. "Паук" создает каталог находящихся на этих серверах домашних страниц, затем с каждой из них следует по ссылкам на другие страницы, которые, в свою очередь, заносятся в каталог и исследуются на предмет новых ссылок. Это продолжается до тех пор, пока информация по всем цепочкам ссылок не будет проиндексирована в базе данных на собственном сервере "паука". В этом заключается основной принцип, стоящий за такими общедоступными средствами поиска, как AltaVista, WebCrawler и Lycos.

Позвольте "пауку" продолжать индексирование и, вероятнее всего, в конце концов он проиндексирует практически каждую Web-страницу по всей Internet, если, конечно, вы предоставите ему достаточно дискового пространства и достаточно мощный процессор, чтобы перемолотить все эти миллионы страниц и ссылок. Изначально созданные для того, чтобы каталогизировать документы HTML, "пауки" могут индексировать и другие типы документов - от формата PDF компании Adobe Systems до документов Microsoft Word.

Но, как обнаружили SGS-Thompson, TI и другие компании, для эффективного использования "пауков" требуются значительные объемы планирования, чтобы уменьшить их воздействие на сеть и индексируемые серверы. Для того чтобы унифицировать затребованные для поиска документы, компаниям, возможно, потребуется также разработать корпоративные спецификации по стилю и формату Web-страниц.

К счастью для менджеров интра-сетей, большинство "пауков" поставляются с конфигурационными файлами или другими средствами, ограничивающими радиус поиска до конкретного домена или набора серверов. Все больше "пауков" также отслеживают, когда они в последний раз посещали конкретную страницу. Если страница не изменялась со времени последнего визита, "паук" переходит к следующей.

Некоторые "пауки" создают каталог Web-сервера за одно посещение, что может потребовать их запуска в нерабочее время. Другие проводят пошаговое индексирование, т.е. создают каталог за несколько посещений, сокращая разовую нагрузку на серверы. Корпорация Intel, например, использует оба подхода. Каждый вечер группа "пауков" проводит пошаговое сканирование внутренних серверов, так что вся сеть переиндексируется приблизительно раз в неделю.

Другая роль "паука" - он предъявляет пользователю форму запроса и на основании данных, внесенных в эту форму, осуществляет поиск. Каждый "паук" в соответствии с запросами пользователей использует для подбора в базе данных полей различные наборы алгоритмов, но типичным является какая-либо из форм булева поиска. Все удовлетворяющие запросу ссылки отображаются в виде меню, дающего пользователю возможность перейти к этим файлам щелчком мыши.

Как и другие технологии, основанные на Internet, первые "пауки" были разработаны в (или для) образовательных учреждениях. Например, Harvest был разработан в Университете шт. Колорадо, а Lycos - в Университете Карнеги, Меллон. Несколько компаний, включая Digital Equipment, Netscape Communications, Open Text и Verity сегодня либо продают "пауков", либо проводят их бета-тестирование.

SGS-Thompson

Компания SGS-Thompson Microelectronics не могла дожидаться коммерческой версии "паука". Наблюдая за развитием интрасетей в начале этого года, служба технической поддержки корпорации осознала: она не может определить какие-то направления своей дальнейшей деятельности, прежде чем получит представление о том, что уже создано во внутренних сетях, говорит администратор электронной почты корпорации Гиллес Саймон.

По словам Саймона, сетевые администраторы знали, что все больше отделов устанавливают внутренние Web-серверы, но выяснение того, сколько их и что на них "вывешено", при мировом масштабе предприятия казалось непосильной задачей. У информационной службы появился новый приоритет: "поставить анархию под контроль или умереть". Саймон и его сослуживцы решили применить "паука" для управления хозяйством Web и создания индексов информации предприятия. Доступных коммерческих версий "пауков" не было, и SGS-Thompson воспользовались программой ht://Dig - разработанным Университетом Сан-Диего свободно распространяемым "пауком" для Unix.

Саймон говорит, что ht://Dig может быть относительно легко настроен через конфигурационный файл, эффективен и позволяет ограничиться поиском серверов внутри домена компании. Последнее особенно важно, поскольку иначе "паук" может проследовать по ссылкам "наружу" и попытаться проиндексировать всю Internet.

Чтобы облегчить пользователям поиск информации, информационная служба компании разрабатывает руководство по стилю Web-страниц, дабы они выглядели единообразно. В качестве минимальных требований руководство компании призывает использовать HTML 2.0 (по существу, классический HTML плюс таблицы) и формат PDF фирмы Adobe Systems для информации, предназначенной только для чтения.

"Сила нашей intranet будет измеряться ее возможностью находить, получать и доставлять нужную информацию в нужное время", говорит Саймон. Вне зависимости от содержимого сети, главное - мощный механизм поиска. "Паук", находящийся на Unix-станции (в Париже) запускается ночью и приблизительно за два часа индексирует 8000 документов на 30 серверах корпорации в Азии, Европе, Тихоокеанском регионе и США. Пользователи могут получить доступ к нему через центральную страницу, названную SGS-Thompson City.

Texas Instruments

Компания TI, как и SGS-Thompson, пережила взрыв использования внутренней Web-технологии, говорит Дон Рольф, администратор по поддержке инженерных систем Группы материалов и элементов управления TI из Эттлборо, шт. Массачусетс.

Компания хотела избежать повторения своего опыта использования системы, основанной на мэйнфрейме, которая при извлечении информации зарекомендовала себя как очень сложная, говорит он. Рольф установил Harvest, одну из первых программ поиска в Web, которая, как он говорит, эффективно использует ресурсы сети и системы.

Рольф быстро столкнулся с тремя основными проблемами. Он обнаружил, что в такой большой сети, как у TI, количество индексов может вырасти до ужасающих размеров, что конкретные типы файлов могут "подвесить" или привести к аварии сервер "паука" и что поиск серверов, еще не связанных ссылками с проиндексированными, может оказаться очень сложной задачей.

Рольф говорит, что в настоящий момент его "пауку" требуется около 4Гбайт дискового пространства для индексирования около 80 тыс. документов на разбросанных по всему миру 133 серверах. "Паук" индексирует HTML, текст и файлы PostScript заодно с программами на C и именами выполняемых файлов. На очереди - документы Word for Windows и таблицы Excel. "Индексирование всех документов по полным словам может фактически уничтожить любую корпоративную систему", - говорит Рольф. Поэтому он настроил Harvest на прекращение каталогизации файлов после определенного количества символов. Он также исключил из процесса графические файлы, которые, по своей природе, плохо поддаются индексированию, и скрипты CGI, которые могут быть большими и о которых большинству пользователей незачем и знать.

(Intel также использует Harvest в качестве внутреннего "паука". Компания теперь запускает несколько "сборщиков", посколько одному "пауку" для того, чтобы собрать индексы внутренней Web требовалось ни много ни мало 24 часа, говорит представитель компании.)

Harvest, по словам Рольфа, обнаружил неспособность работать с файлами, сжатыми командой Unix: они, как правило, "подвешивали" его. Многие файлы, сжатые при помощи архивационных программ для MS-DOS или Unix, вызывали схожие проблемы. Как результат, теперь "паук" обходит файлы этих типов.

Любой сотрудник TI может установить Web-сервер. Поощряется регистрация создателями Web-страниц своих серверов в центральном каталоге, но такой подход был избран непродуманно. "Я разрешил эту регистрацию в самом начале, - говорит Рольф, - но теперь администратор "паука" вынужден все время высматривать новые Web-серверы."

В Harvest заложено пошаговое индексирование. Это означает, что сеть переиндексируется примерно раз в две недели. Благодаря такому подходу нагрузка на большинство серверов оказывается довольно низкой, утверждает Рольф.

Что касается безопасности, говорит Рольф, то администраторы локальных Web-серверов должны так строить защиту, чтобы материалы, неготовые для предоставления доступа к ним всей корпорации, оставались закрытыми. Это достигается как при помощи средств ограничения доступа к файлам Unix, так и при помощи файла robot.txt, который "сообщает" "паукам", каких файлов или каталогов следует избегать.

Популярность "паука" в TI растет, говорит Рольф. "Обычно я имею несколько сотен запросов каждую неделю".


"Пауки" на Всемирной паутине

AltaVista: http://altavista.software.digital.com

Harvest: http://harvest.cs.colorado.edu

ht://Dig: http://htdig.sdsu.edu/

OpenText Livelink: http://www.opentext.com/livelink

Netscape Catalog Server: http://home.netscape.com/comprod/server-central/index.html

Verity: http://www.verity.com


Прясть ли паутину?

"Выпускать паука" надо предусмотрительно. Вот несколько вопросов, которые надо продумать

Действительно ли он вам нужен? Если у вас всего лишь несколько серверов, то "паук" будет, скорее всего, средством избыточной мощности. Даже распространяемые бесплатно "пауки" могут вызвать значительные расходы. "Многие компании считают, что нужно следовать любой новейшей тенденции, - говорит Брайан Кроматри, аналитик компании JLS Software Systems (Мемфис, шт. Теннеси). - Но вопрос в следующем: сколько у нас документов, которые часто изменяются?" Если у вас десятки серверов, на которых размещены тысячи документов, то "пауки" могут оказаться единственным средством привести информацию от хаоса к порядку, считает Айзек Рот, консультант по вопросам intranet консалтинговой фирмы On-The-Net из Сан-Франциско.

Как реагируют окружающие? Многие опасаются, что "пауки" породят излишний сетевой трафик и повысят утилизацию серверов, говорит Рот. На самом деле, "большинство из них достаточно хорошо себя ведут" и могут быть сконфигурированы так, чтобы минимизировать воздействие на сеть и серверы. Администраторы внутренних Web-серверов компаний могут также стать лучшими друзьями администраторов "пауков", т.к. могут предоставлять им списки Web-серверов - то, что нужно для начала поиска.

Как минимизировать воздействие на серверы? Запускайте "пауков" в пошаговом режиме по вечерам или по выходным. И не важно, насколько хорошо ведут себя "пауки" - им все равно требуется надзор человека: они могут споткнуться на некоторых файлах или ссылках, говорит Рот.

Достаточно ли у вас дискового пространства? Убедитесь в том, что у вас много свободного дискового пространства и продумайте ограничения на количество индексируемых документов. Индексы 80 тыс. документов в компаниии Texas Instruments занимают 4Гбайт дискового пространства.

Как ограничить поиск? Постарайтесь исключить поиск некоторых типов файлов, например архивы или графику. Они могут "подвесить" некоторых "пауков".