Эффективность индексирования Web поисковыми средствами снижается
Лучшим поисковым механизмом признано ПО Northern Light, которое анализирует 16% общего количества Web-страниц |
В статье, которая была опубликована 8 июля в журнале Nature, ученые из NEC Institute Стив Лоуренс и К. Ле Жиль ознакомили читателей с результатами своего последнего исследования, показавшего, что поисковые механизмы часто выдают в ответ на запрос неадекватную, устаревшую и не соответствующую критериям поиска информацию. С декабря 1997 по февраль 1999 года наполнение Web увеличилось более чем вдвое — с 320 млн. до 800 млн. страниц. За тот же период «охват» Сети поисковыми механизмами страниц сократился с 34 до 16%. В исследовании проводится сравнение функциональных возможностей 11 наиболее популярных поисковых средств, а также результатов выполнения ими 1050 запросов. Лучшим поисковым механизмом признано программное обеспечение Northern Light, которое анализирует 16% общего количества Web-страниц. Буквально на полшага позади оказались программные средства AtlaVista и Snap, поделившие между собой второе место с результатом 15,5%. Возглавлявший в прошлом году список лидеров поисковый механизм HotBot сегодня оказался на четвертом месте (11,3%).
Нижняя часть списка представлена программным обеспечением EuroSeek, которое сумело найти только 2,2% Web-страниц. Чуть более высокий результат показали порталы Lycos, Excite и Yahoo!, набравшие соответственно 2,5%, 5,6% и 7,4%.
В совокупности 11 поисковых механизмов выдали ссылки только на 335 млн. страниц, что составляет 42% общего объема содержимого Web. Это означает, что пользователи метапоисковых средств (например, MetaCrawler и Ask Jeeves) имеют гораздо более высокие шансы получить нужную им информацию по сравнению с теми, кто обращается лишь к одному поисковому механизму.
«В целом создается впечатление, что объем индексируемых данных ограничен, — отметил Лоуренс. — При этом эффективность индексирования Web поисковыми средствами непрерывно снижается».
Но вместо того чтобы закупать дополнительные вычислительные ресурсы для индексирования большего числа страниц, аналитики рекомендуют владельцам порталов направлять финансовые средства на организацию новых служб (например, приложения календарного планирования или ПО для организации переговорных сеансов). Лоуренс заметил, что «сегодняшние вложения в развертывание дополнительных приложений впоследствии многократно окупятся за счет повышения доходов, а следовательно, и цены акций».
Необходимо учесть также, что большинство людей составляют достаточно простые запросы, которые предназначены для поиска лишь в одной относительно небольшой базе данных или в группе Web-страниц. Кроме того, время, в течение которого поисковый механизм будет просматривать 800 млн. страниц, наверняка окажется неприемлемым для большей части пользователей. И наконец, разработчики поисковых средств имеют не так уж много стимулов для дальнейшего совершенствования своих продуктов.
Авторы статьи считают, что на индексирование новых страниц уйдет много месяцев. В одном из исследований было показано, что от момента появления новой страницы до того, когда ссылка на эту страницу появляется в результатах запроса поискового механизма, проходит 186 дней.
Кроме того, в процессе индексирования очень часто возникают неточности и несоответствия. В статье отмечается, что поисковым механизмам «выгоднее» индексировать те узлы, к которым часто поступает обращение, а также страницы, содержащие много ссылок на наиболее популярные узлы. Коммерческие (.com) Web-узлы включаются в индекс с большей вероятностью, чем образовательные (.edu). Страницы, находящиеся в США, индексируются чаще, чем узлы, расположенные в других странах (исключение составляет поисковый механизм AltaVista).
Основная опасность, по мнению Лоуренса, заключается в том, что в конечном итоге пользователи смогут вести поиск только на наиболее популярных узлах, что, безусловно, скажется на точности результатов. Как правило, конкретный источник информации (например, о котировках акций) не имеет решающего значения, но в некоторых случаях широкомасштабный поиск просто необходим.
К примеру, если медики не знают точно, проводились ли где-либо ранее нужные им исследования, зона поиска должна быть расширена. А получение полной информации о кандидатах в выборные органы имеет важное значение для принятия избирателями правильного решения.
Недостатки, присущие поисковым механизмам, заставляют владельцев узлов создавать специальные каталоги, позволяющие повысить эффективность поиска. С помощью таких каталогов поисковые механизмы получают возможность напрямую обращаться к интересующей информации.
Одно утешает — по оценкам Лоуренса, в ближайшее время темпы увеличения объема информации в Web постепенно замедлятся: «Уже через несколько лет рост мощности вычислительных ресурсов перекроет скорость пополнения содержимого Сети».