Такую задачу призваны решать герои нашего обзора — метапоисковые системы. Эти сервисы направляют запрос пользователя на несколько поисковых машин, а затем принимают полученные результаты, обрабатывают их и выдают единым списком.
Метапоисковые интернет-системы прошли в своем развитии достаточно долгий путь, и сейчас их лучшие представители используют самые современные технологии обработки информации, например кластеризацию. Суть такого подхода заключается в том, что полученное в ходе поиска по определенному ключевому слову подмножество страниц дополнительно анализируется, в результате чего выявляются новые ключевые слова, встречающиеся на веб-страницах вместе с терминами запроса. С большой вероятностью они относятся к отдельным аспектам интересующей пользователя темы. Далее найденные веб-страницы разделяются на отдельные кластеры в соответствии с наличием этих дополнительных ключевых терминов. Такая технология имеет ряд преимуществ. Пользователь получает подсказки, позволяющие уточнить запрос, что особенно важно при поиске по незнакомой предметной области. Применение кластеров также помогает поднять в результатах поиска узкотематические сайты, которые при обычном поиске могли оказаться далеко за пределами первой десятки результатов и, следовательно, вне поля зрения подавляющего большинства пользователей.
Далее мы рассмотрим лучшие в настоящее время интернет-метапоисковики, базирующиеся на кластерных технологиях.
Сервис Clusty — один из крупнейших современных метапоисковиков, «полноценная» версия экспериментальной машины Vivisimo, разрабатывающейся с 2004 г. Clusty работает с поисковиками Ask, Gigablast, Live (теперь — Bing), дополняя результаты данными, полученными в «Википедии», Yahoo! News и Open Directory. Эту систему вряд ли стоит рекомендовать для поиска по умолчанию, однако она станет отличным дополнением к поиску по иностранным ресурсам в Google или Yahoo!, поскольку позволяет в едином интерфейсе охватить индексные базы, обычно выпадающие из круга зрения пользователя, привыкшего обращаться только к самым крупным и известным поисковикам.
Интерфейс страницы выдачи данного сервиса четко разделен на две области: список результатов и боковую панель кластеров, на которой отображаются результаты кластеризации в виде перечня. Его отдельные элементы можно раскрыть, чтобы просмотреть вложенные кластеры. Clusty по умолчанию использует двухуровневую кластеризацию. Уточнить поиск поможет поле Find in clusters. Боковая панель содержит еще несколько закладок: Sources, на которой результаты разбиты на группы по отдельным поисковикам, и Sites, где ссылки сгруппированы по доменам.
В списке результатов рядом с каждой ссылкой присутствуют три кнопки. С их помощью можно открыть ссылку в новом окне, найти все ее вхождения в различных кластерах, а также воспользоваться режимом предварительного просмотра. В этом случае на странице выдачи создается небольшой фрейм, куда и подгружается найденная веб-страница.
Расширенные настройки поиска позволяют указать язык искомых страниц, типы файлов (поддерживаются форматы Microsoft Office и PDF), а также количество ссылок в кластерах — 200 или 500.
Помимо поиска по веб-сайтам, Clusty предлагает работу с базами изображений, новостей и блогов. Каждый из перечисленных режимов имеет свою специфику. Так, при поиске картинок задействован только один источник — Picsearch, однако достойно работает кластеризация результатов. Изменяются и вкладки на боковой панели, предлагающие сгруппировать найденный контент по размеру рисунка, типу файла и домену. При поиске новостей предлагается собственная группировка: «горячие» новости, наука, бизнес и другие подобные категории. Весьма интересен раздел Wikipedia. Это, по сути, кластерный интерфейс к крупнейшей сетевой энциклопедии, полезный в том случае, когда интересует достаточно широкая предметная область. Поиск по блогам ведется довольно медленно, причем обрабатываются сервисы Feedster, Technorati, Blogger и BlogPulce.
В настройках Clusty присутствует интересная возможность создать собственный режим поиска, включив в него необходимые поисковики из списка поддерживаемых системой. Это, например, позволит вести одновременный поиск и по сайтам, и по новостям, и по блогам.
Наряду с обычным веб-интерфейсом система обладает и сервисом, оптимизированным для просмотра на мобильных устройствах (m.clusty.com). Он выполнен достаточно удачно: кластеры выводятся в виде горизонтальной линейки над основным списком. Кроме того, сразу предлагается перечень уточненных запросов, что удобно, если вы пользуетесь обычным телефоном и не желаете лишний раз набирать на клавиатуре. В отличие от обычного поиска, мобильная версия выводит на одной странице результаты поиска и по веб-сайтам, и по базе изображений. Отдельно выделены статьи, найденные в «Википедии».
И еще Clusty предлагает поисковый плагин для Firefox и Internet Explorer, а также панели инструментов для браузеров Firefox, Safari и Opera.
Cистема PolyMeta — новинка в области метапоиска. Данный сервис работает с восемью крупными поисковиками: Google, Yahoo!, Bing, Ask, Exalead, AllTheWeb, GigaBlast и Cuil, что обеспечивает хороший охват при поиске. При желании допустимо вручную настроить список поисковиков, на которые будет отправлен запрос. Для этого служит ссылка Select Sources, расположенная рядом с полем ввода запроса. Кластерный алгоритм PolyMeta обрабатывает только первые две сотни результатов, полученные от названных поисковых систем, т. е. удастся увидеть лишь первые 25 ссылок с каждого из них. Следовательно, PolyMeta не слишком подходит для работы с так называемым «длинным хвостом» результатов.
C помощью данной системы можно искать по веб-страницам, базам изображений и новостей, а также по блогам. Оригинальный раздел этого метапоисковика — поиск по микроблогам Twitter.
Интерфейс страницы выдачи разделен на три колонки. На левой панели содержатся результаты кластеризации. Данная система поддерживает несколько уровней вложений в кластерах, благодаря чему можно достаточно быстро уточнять запрос просто щелчками мыши. Отдельная закладка панели поможет отсортировать результаты по источникам поиска. Правая колонка интерфейса PolyMeta выводит результаты поиска изображений, осуществляющегося гораздо медленнее, чем поиск веб-сайтов. При поиске видео система работает с YouTube, Google Video, Yahoo! Video и MySpace.
В списке ссылок, выводящемся в центральной колонке, как и в Clusty, доступна опция предварительного просмотра найденной веб-страницы во фрейме. Кроме того, уникальные результаты, обнаруженные только одним из задействованных поисковиков, подсвечиваются цветным фоном. Над перечнем всех найденных ссылок выводится информация о количестве тех, которые получены с каждого задействованного поисковика. В системе PolyMeta также доступен визуальный режим отображения кластеров.
Система PolyMeta, обеспечивающая охват всех крупнейших индексных баз, может быть рекомендована для обзорного поиска по иностранным ресурсам. Заметим, что благодаря обращению к базам европейского поисковика Exalead, результаты по запросам на языках, отличных от английского, здесь иногда получаются лучше, чем на других метапоисковиках. К минусам PolyMeta относятся заметная «задумчивость» при обработке результатов, не всегда удачная сортировка ссылок, а также работа только с первыми позициями в выдаче отдельных поисковиков.
Разработчики французского проекта KartOO бросили все силы на создание действительно оригинального визуального интерфейса. Построенный на основе технологии Flash, он внешне заметно отличается от большинства привычных нам интернет-поисковиков.
Интерфейс KartOO доступен на трех языках: английском, французском и немецком. После отправки запроса можно выбирать из трех режимов просмотра результатов. Переключение между ними осуществляется с помощью кнопок на Панели инструментов, расположенной над основным рабочим пространством. Первые два режима — обычный горизонтальный список найденных ссылок, а также вывод ссылок вертикальными колонками. В данном случае на одном экране помещается всего три ссылки, но они сопровождаются, во-первых, графической миниатюрой веб-страницы и, во-вторых, расширенной аннотацией. Однако наиболее интересен третий режим, поскольку аналогов ему нет у конкурентов. Он включен на KartOO по умолчанию, и результаты демонстрируются в виде своеобразной визуальной карты. Каждая найденная ссылка представляется графической миниатюрой сайта, размер которой зависит от ее позиции в выдаче задействованных поисковиков. При наведении курсора на миниатюру появляется небольшое всплывающее окно с краткой текстовой выдержкой, характеризующей найденную веб-страницу.
Чтобы дополнительно обработать результаты, KartOO, как и другие участники данного обзора, использует технологию кластеризации. Ее результаты также выводятся на карте, но только получается не привычная панель с перечнем кластеров, а «тропинки» между отдельными миниатюрами на карте. Цветные связи в этом случае позволяют соединить веб-страницы из разных кластеров, что полезно для обработки сайтов широкой тематики. Если несколько сайтов принадлежат к одному кластеру, то они будут связаны между собой на карте, а рядом с такой сетью выводится название конкретного кластера. Щелкнув по нему, можно уточнить запрос и перейти к просмотру результатов. Пожалуй, наиболее близок к KartOO по своей идее интерфейс российского поисковика Quintura, однако там основой послужило простое облако тегов, без демонстрации связей между отдельными сайтами.
Есть у KartOO и боковая панель. По умолчанию там выводятся результаты поиска по новостям и картинкам. Ее содержание можно изменить в настройках поиска. Среди других настроек, доступных в этом поисковике, — детский фильтр, внешний вид карты и переключатель количества результатов на одной странице.
Nigma
C удовольствием следует отметить, что в области метапоиска российские разработчики не отстают от своих зарубежных коллег. Со всей ответственностью утверждаю, что поисковая система Nigma, выполненная на мировом уровне, является самым совершенным в настоящее время кластерным метапоисковиком для русскоязычных веб-ресурсов.
Сервис Nigma был разработан в 2005 г. при поддержке специалистов МГУ им. М.В. Ломоносова и в сотрудничестве со Стэндфордским университетом. Он работает со всеми крупнейшими индексными базами, содержащими документы на русском языке. Это Google, «Яндекс», «Рамблер», Bing, Altavista, Yahoo!, Aport, а также собственная индексная база Nigma.
Действительно сильная сторона Nigma — это учет специфики русского языка при обработке запросов и формировании кластеров. По понятным причинам подобной точностью не может похвастаться ни один из зарубежных ресурсов. В Nigma также хорошо выполнено автодополнение при вводе поискового запроса. В отличие от большинства интернет-поисковиков, здесь не только предлагаются варианты написания того или иного слова, но и выводятся прямые ссылки на справочные ресурсы.
Достойно выполненный алгоритм кластеризации Nigma в ходе поиска учитывает различные морфологические формы слов из запроса, умеет находить и обрабатывать синонимы, а также выявлять более общие понятия. Кроме того, система успешно обрабатывает запросы с орфографическими ошибками — их может быть до четырех в одном слове, а предлагаемые варианты написания ранжируются по близости к его звучанию. Nigma также без проблем справляется с запросами, по ошибке набранными в неправильной раскладке. Система обладает собственным словарем омонимов, что очень помогает при поиске по темам, относящимся к информационным технологиям, поскольку вариантов написания заимствованных из английского языка терминов может быть немало.
Интерфейс Nigma построен на выводе сформированных кластеров в виде списка на боковой панели. Включение и исключение отдельных кластеров осуществляются простым щелчком по соответствующим чекбоксам.
Наряду с поиском по веб-страницам в Nigma реализованы еще три вида поиска: «Картинки», «Библиотеки» и «Музыка». Поиск изображений также работает в метарежиме, обращаясь к трем внешним поисковикам: «Яндекс», Google и «Рамблер». Здесь, правда, кластеризация не работает, фильтровать изображения можно по более привычным признакам — размеру и типу файла.
Поиск книг, работающий с крупнейшими сетевыми библиотеками, ориентирован на нахождение полных текстов произведений. Здесь осуществляется кластеризация, однако ее результаты далеко не такие впечатляющие, как при простом веб-поиске. Весьма достойно выглядит в работе поиск музыки. Как и в случае с книгами, система ориентируется на ресурсы, позволяющие прямое копирование файлов. Несмотря на то что сервис в данном режиме работает только с базами «Яндекс» и Nigma, результаты поиска весьма достойные, находятся даже довольно редкие вещи. Если файл позволительно воспроизвести без закачки, то рядом с найденными результатами выводится мини-плеер.
Поскольку речь зашла о метапоиске с визуализацией результатов, то нельзя не вспомнить проект SearchCrystal, который, благодаря оригинальному интерфейсу со спиралевидной картой, отображал до нескольких сотен ссылок на одной странице, умел представлять кластеры в различных режимах — от облака тегов до иерархического списка, а также предлагал впечатляющий набор инструментов для работы с запросом. К сожалению, сейчас проект не действует. Будем надеяться, что разработки SearchCrystal не пропадут и мы еще увидим их в Сети.
Интересно, что, если системе удается автоматически распознать отдельные элементы веб-страницы, она выводит подробные сведения о ней на странице выдачи. Например, для авторских статей это могут быть заголовок и автор, для программ — название, размер, разработчик, издатель и даже список похожих программ. Это в определенной степени роднит Nigma с приложениями так называемого поколения Semantic Web, или, как его еще иногда называют, Web 3.0.
Июньское потепление
Уже шестой по счету ежегодный форум DISTREE Digital Consumer Channel CIS прошел в Москве 17 — 19 июня 2009 г. Впервые параллельно с «потребительским» форумом прошел и Digital Business Channel. Это объединенное мероприятие получило название DISTREE Channel IT Week. В форумах приняли участие не только вендоры, но и дистрибьюторы, ритейлеры, бизнес-партнеры, работающие в сфере ИТ на территории СНГ. В рамках мероприятия было проведено около 1500 личных встреч, что позволило наладить необходимые бизнес-контакты.
Мы же больше внимания уделили проводимой в рамках DISTREE Channel IT Week выставке, на которой каждый из 60 производителей, участвовавших в ней, продемонстрировал образцы своей продукции. Из увиденного у нас вызвали большой интерес референсная версия нетбука на платформе nVidia Ion и интегрированная системная плата формфактора Mini-ITX от ZOTAC на том же наборе системной логики. Кстати, образец этой платы мы получили для тестирования.
Кроме того, следует отметить продемонстрированную компанией Toshiba компактную видеокамеру, способную снимать видео с разрешением до 720р (впоследствии планируется выпуск модели с разрешением до 1080р). В качестве носителя информации используются карты SDHC. Камера оборудована 2,5-дюймовым дисплеем и объективом с 4-кратным оптическим зумом. Ожидается, что цена этого устройства составит около 9 тыс. руб. Кстати, в числе участников форума было довольно много вендоров, до настоящего времени официально не представленных на российском рынке. К их числу относится бельгийская компания IRIS, производитель разнообразных портативных сканеров, чья продукция появится на отечественном рынке осенью этого года.
Среди разработчиков программного обеспечения, присутствовавших на форуме, стоит упомянуть немецкую компанию G Data, производящую антивирусное ПО, которое вскоре должно появиться на российском рынке. По функциональности ее продукция не уступает известным у нас пакетам безопасности, поэтому есть все основания считать, что G-Data сумеет завоевать популярность у отечественных пользователей.
Интерес зарубежных компаний к таким мероприятиям, как DISTREE Channel IT Week, — хороший признак, свидетельствующий о здоровой обстановке на отечественном рынке, и мы надеемся, что такая тенденция сохранится и в будущем.
В. П.
Clusty
Оценка: 4 / 5
Технологические особенности: кластеризация
Язык интерфейса: английский
Сайт: www.clusty.com
PolyMeta
Оценка: 4 / 5
Технологические особенности: кластеризация
Язык интерфейса: английский
Сайт: www.polymeta.com
KartOO
Оценка: 4 / 5
Технологические особенности: кластеризация, визуальное отображение результатов
Язык интерфейса: английский, французский, немецкий
Сайт: www.kartoo.com
Nigma
Оценка: 5 / 5
Технологические особенности: кластеризация, учет особенностей русского языка
Язык интерфейса: русский
Сайт: www.nigma.ru
Clusty обладает удобным мобильным интерфейсом и позволяет охватить альтернативные индексные базы
PolyMeta работает со всеми крупными поисковиками, но обрабатывает лишь верхние позиции их выдачи
Система KartOO предлагает визуальный режим отображения результатов в виде карты