Главное не количество проиндексированных страниц, а качество содержащейся в них информации
Но это не значит, что при поиске пользователям будет доступна вся проиндексированная база. Почему? Потому что из индекса, по которому производится поиск, Inktomi большую часть страниц вынуждена исключить, считая их нерелевантными.
Пользователям, ищущим информацию на популярные темы, никаких неудобств это не доставит. Они легко смогут найти Web-узел поклонников Бритни Спирс или виртуальный цветочный магазин. Однако тем, кто разыскивает информацию по специализированной тематике, не привлекающей интереса основной массы посетителей Web, иногда проще будет угадать адрес, чем воспользоваться базой Inktomi.
«Меня всегда раздражает, если кто-то за меня решает, что мне подходит, а что нет, — говорит Грег Нотесс, администратор Web-сайта Search Engine Showdown, на котором публикуются сравнительные обзоры поисковых машин. — Пусть набор страниц Inktomi устроит даже 99% пользователей, но всегда найдется один процент ищущих информацию, нужную только им».
Анонс Inktomi, по-видимому, служит ответом критикам, полгода назад жаловавшимся, что поисковыми системами проиндексировано лишь около 15% содержащейся в Web информации. По оценке Стива Лоуренса из Исследовательского института NEC, сейчас в Internet размещено по меньшей мере 1,5 млрд. страниц, тогда как в июле их было около 800 млн.
Inktomi обратилась в институт с просьбой проверить и подтвердить объявленные результаты. Лоуренс, один из авторов июльского исследования, отмечает, что обширная «карта Web», составленная Inktomi, дает довольно подробную картину информационных ресурсов Internet. На основании этих сведений, говорит Лоуренс, действительно можно принимать решения о релевантности тех или иных Web-страниц.
«По размеру поискового индекса Inktomi, вероятно, не лучшая система. Но у нее определенно есть преимущество в виде большой базы проиндексированных страниц, которая дает хорошую картину Web, — говорит Лоуренс. — Кроме того, если поисковая база невелика, ее проще обновлять и индексировать».
Inktomi утверждает, что ограничив рабочий индекс примерно 170 миллионами страниц (110 млн. для Северной Америки), она помогает пользователям экономить время. Чтобы определить, включать ли страницу в результаты поиска в дальнейшем, система анализирует ее содержание, ссылки на нее и реакцию пользователей, получивших эту страницу при предыдущем поиске. Очевидно, что крупнейшие поисковые серверы, пользующиеся индексом Inktomi, то есть Yahoo, AOL, ExciteAtHome, Hotbot и Microsoft Network, против такой практики не возражают.
«Главное — не количество проиндексированных страниц, а качество содержащейся в них информации», — отмечает представитель ExciteAtHome Крис Карпентер, три года проработавший в отделении поисковых систем, а затем перешедший в отделение коммерции. ExciteAtHome располагает поисковой базой, содержащей информацию по 250 млн. Web-страницам.
Однако представители других компаний, являющихся операторами поисковых систем, не согласны с Карпентером, считая, что могут выдавать релевантные результаты, не принося в жертву объем базы данных.
«Сужение поискового индекса означает, что пользователи могут не получить какие-то нужные им страницы, — говорит Дэвид Бернс, президент Fast Search & Transfer по операциям в США. — Это завуалированная форма цензуры: все равно что прийти в библиотеку и искать нужную книгу только в одном зале».
У Fast Search есть свои причины для недовольства. Компания утверждает, что ее база ссылок — самая крупная, а механизм поиска — самый быстрый в Сети. Естественно, Fast Search не хочется уступать лавры Inktomi. Ведь та не афиширует, что ее поисковый индекс ограничен 170 миллионами страниц, а просто сообщает, что проиндексировала миллиард. Fast Search же недавно объявила, что для создания базы по 300 млн. URL она проиндексировала 700 млн. Web-страниц.
Бернс утверждает также, что Inktomi не слишком часто обновляет свой индекс, из-за чего в выдаваемых ею результатах нередки устаревшие ссылки.
В AltaVista, чья система входит в тройку серверов, располагающих самыми крупными поисковыми индексами (270 млн. страниц), тоже считают, что объем имеет значение. «При определении степени релевантности поисковые механизмы не должны фокусироваться только на популярных ресурсах, — говорит представитель AltaVista Трейси Робертс. — Поэтому мы проиндексировали 90% всех существующих сайтов».
AltaVista осваивает мультимедиа-поиск
Компания AltaVista модернизировала свой популярный поисковый механизм, оснастив его возможностью поиска аудио- и видеофайлов.
База, по которой производится поиск, содержит более 30 млн. ссылок на звуковые файлы, видеоклипы и изображения. Ожидается, что наибольшей популярностью будут пользоваться фотографии, рекламные «нарезки» из кинофильмов и, конечно, MP3-файлы.
В настоящее время AltaVista является дочерним предприятием инвестиционного холдинга CMGI. Изначально поисковая система принадлежала Digital. Когда ее поглотила Compaq, она приобрела и AltaVista, но затем продала ее. Нынешняя модернизация — первая со времени последней смены владельца.
Интерфейс AltaVista содержит пять «кнопок» для поиска Web-страниц в обычном режиме и с расширенным набором параметров, а также для поиска изображений, MP3-файлов и видеоклипов. Следует выбрать один из ярлыков и ввести команду поиска. Например, можно нажать на кнопку Images и набрать Abraham Lincoln. Система выдаст около 7 тыс. ссылок на изображения с пиктограммами.
При щелчке на выбранную пиктограмму браузер загрузит соответствующую Web-страницу. Аналогичным образом происходит поиск видеоклипов и звуковых файлов. Возможно, полученный список ссылок понадобится отфильтровать. Если ввести имя исполнителя, система выдаст ссылки на все его композиции и обложки его альбомов, хранимые на узлах музыкальных Internet-магазинов.
Одним из источников мультимедиа-материалов, представленных на AltaVista, являются ее партнеры, такие как Corbis и CDNow. Пользователи могут включить или отключить показ в результатах поиска ссылок на Web-серверы любого из партнеров AltaVista. Интерфейс системы позволяет также выбрать расширения и форматы файлов для поиска. В частности, при поиске изображений можно искать только цветные, только черно-белые или те и другие.
Несмотря на то что большая часть ссылок берется из базы данных AltaVista, содержимое многих файлов охраняется авторским правом. Это значит, что полученные изображения, например, можно использовать в качестве «обоев» для «рабочего стола» своей операционной системы, но за любое коммерческое использование необходимо делать отчисления авторам.
Поисковую базу данных планируется обновлять ежедневно. Компания обещает, что индекс мультимедиа-материалов будет содержать только свежие ссылки. Служба рассчитана на осуществление до трех миллионов операций поиска MP3-файлов ежедневно.
— Чарльз Бермант, PC World.com, СШАТри крупнейшие поисковые машины
По результатам анализа трех крупнейших поисковых машин вперед с большим отрывом вышла Fast с новой базой данных в 300 млн. URL. При обработке 25 запросов этими тремя системами Fast выдала в общей сложности 6708 страниц, Northern Light — 5102 и AltaVista — 5055. В 20 из 25 запросах Fast выдала больше ссылок, чем два ее конкурента, Northern Light была первой в 2 запросах, AltaVista — в 3