Что ни персональная поисковая система, то новое слово в локальном поиске. Вот и немецкая фирма NeuroPower выпустила свою версию — Superior Search 2005 (www.superiorsearch.ru), причем сразу в двух вариантах: Standard и Business. Я протестировала обе эти версии на предмет обнаружения того самого «нового слова». Что же делает эта программа лучше, чем аналогичные («Следопыт», «Архивариус 3000», «Ищейка», Cros)? И стоит ли она тех 109 евро, что требуются на ее регистрацию?
Прежде чем начать разбирать по косточкам Superior Search, познакомлю читателя с результатами испытаний упомянутых выше аналогов, дабы пояснить, с какими мерками я подходила к Superior Search и чего от нее ожидала.
Забегая вперед, скажу, что я рассчитывала на высокую скорость предварительной обработки документов (индексации), поддержку множества форматов файлов, почтовых клиентов и архивов, удобное представление результатов поиска и максимальную релевантность этих результатов.
Все программы, о которых пойдет речь в статье, выполняют поиск с индексацией — обрабатывают заданный массив документов (область поиска), извлекают определенные данные и создают на их основе свою базу данных (индекс), по которой впоследствии и выполняют поиск. Любая из этих программ находит документы чуть ли не мгновенно, и сравнивать их по скорости поиска не имеет смысла. Важнее выяснить, что именно они ищут, где могут найти и какой результат мы получим на деле.
Что индексируют программы
Все программы «помечают» документы самых популярных типов: простые текстовые файлы, сообщения электронной почты MS Outlook, документы Microsoft Office (Word, Excel и др.), Adobe Acrobat (PDF), гипертекстовые документы (HTM, HTML). «Ищейка» индексирует (и выполняет среди них поиск) файлы с произвольными расширениями или вообще без них — при условии, что они относятся к списку поддерживаемых типов документов и кодировка текста совместима с ASCII, ANSI, Unicode. «Ищейка» и «Архивариус 3000» осуществляют поиск не только в почте, но и во вложениях почтовых сообщений Outlook Express. «Архивариус 3000» работает таким же образом с несколькими другими почтовыми программами и индексирует сообщения популярных интернет-пейджеров и рассылки групп новостей.
Выбор документов для индексирования в «Ищейке» |
Cros индексирует файлы всех форматов, в том числе и графические, распознает любые документы, содержащие текст в поддерживаемой кодировке: DOS, ANSI, KOI8, Unicode. «Следопыт» хоть и работает с четко ограниченным набором типов файлов, но поддерживает большее число кодировок: 866, CP1251, KOI8, ISO-8859-5, MAC.
Все программы осуществляют поиск на английском и русском языках. «Ищейка» настроена на работу с русским как с основным и поставляется с тремя языками интерфейса: русским, украинским и английским. (Англоязычная версия программы The Sleuthhound! поддерживает 15 языков.) «Архивариус 3000» работает со всеми известными кодировками и 24 языками, любой из которых можно выбрать по умолчанию.
Работа с архивами
Все программы индексируют документы перечисленных выше форматов, упакованные архиватором ZIP. «Следопыт» дополнительно обрабатывает архивы почтовых сообщений MS Outlook. «Архивариус 3000» и Cros имеют встроенные архиваторы. У первого их шесть, у второго — 13.
Зоны поиска
Зона (область) поиска — это пространство на жестком диске, состоящее из каталогов или папок, в пределах которого программы ищут документы и файлы. В любой из них эти зоны можно и нужно создать и присвоить им осмысленное наименование. Программы индексируют эти зоны, после чего и приобретают способность находить в них информацию практически мгновенно.
Ограничения индексирования
К сожалению, все приложения имеют ограничения или на размер индексируемой области, или на «вес» создаваемого индекса, в результате чего при немереном количестве текстов на дисках создание единой зоны становится попросту невозможным. Так, суммарный объем документов, индексируемых «Следопытом» и Cros, не может превышать 4 Гбайт (в Cros — только для FAT32, для NTFS не ограничен), а максимальный размер индекса, создаваемого «Архивариусом», составляет 1,5 Гбайт. Подобные ограничения в «Ищейке» и «Следопыте» не указаны, но явно существуют, поскольку программы не смогли проиндексировать в один присест 120 тыс. документов на жестком диске.
Банки документов программы Cros |
Обновление зон поиска
Индексы, созданные «Ищейкой» или «Архивариусом», актуализируются вручную либо автоматически с помощью встроенных планировщиков заданий. «Следопыт» имеет отдельное приложение «Автоиндексатор «Следопыта», позволяющее управлять процессом автоматического индексирования. Новую порцию документов в БД программы Cros можно добавить только вручную. Однако здесь имеются средства, позволяющие частично автоматизировать этот процесс.
Редактирование путей поиска в «Следопыте» |
Что индексируется
В «Архивариусе» для одной области можно выбрать сразу несколько объектов. В каждую из областей «Следопыта» можно добавить сколько угодно путей поиска. В Cros для отбора импортируемых файлов по имени или расширению требуется ввести перечень шаблонов с использованием операторов шаблона «*» и «?». Cros обладает уникальной способностью целиком перемещать индексируемые документы в БД. Полный контроль над тем, что индексировать, имеет «Ищейка». Все программы индексируют документы, находящиеся на съемных носителях (компакт-дисках, гибких дисках, ZIP-устройствах и т.д.).
Параметры индексирования
По скорости индексирования программы выстроились в такой очередности: «Архивариус 3000», «Ищейка», «Следопыт», Cros. По объему же созданного индекса места распределились в обратном порядке.
Поиск и результаты
Все программы позволяют искать документы по словам во всех словоформах и падежах, т.е. выполняют так называемый морфологический поиск. Но только «Следопыт» использует наряду с нечеткой и словарную морфологию.
«Следопыт» использует словарную морфологию |
«Ищейка» и «Архивариус 3000» выводят результаты поиска в стиле поисковых интернет-систем. «Следопыт» создает простой список найденных документов с указанием основных его параметров и веса (точности поиска в процентах). На такой же простой список умеет переключаться и «Архивариус», а параметры при этом можно выбирать. После обращения к БД Cros в специальном окне появляется выборка документов.
Описываемые инструменты позволяют открывать документы не только в окнах связанных с ними приложений, но и во встроенных просмотрщиках. Во всех программах можно сортировать результаты поиска, уточнять и повторять запросы. «Ищейка» способна создать комплект из документов, полученных в итоге нескольких операций по различным зонам поиска. Cros позволяет в отдельном сплит-окошке делать отчет (что-то вроде конспекта из просмотренных документов).
Результат поиска в «Архивариусе 3000» |
Тест Superior Search
А теперь давайте разберемся с Superior Search, с ее полнофункциональной версией редакции Standard, работающей 30 дней.
Индексация в Superior Search проводится с помощью мастера, в котором можно выбрать любое количество папок произвольного уровня вложения, подлежащих обработке, а также задать типичные расширения файлов. Однако, забегая вперед, скажу, что не все файлы PDF и PS были сконвертированы соответствующими фильтрами. Кроме того, эти фильтры работали относительно медленно.
Приятная неожиданность: хотя в списке поддерживаемых почтовиков отсутствовал используемый мной почтовый клиент The Bat!, программой он автоматически определился. И задать поиск можно было не только в текстах почтовых сообщений, но и во вложенных файлах.
Все индексирование прошло на удивление быстро — за 18,5 мин (компьютер Celeron 2,66 ГГц, 1-Гбайт ОЗУ). При этом были обработаны и документы в различных архивах, среди которых — самораспаковывающиеся и даже JAR-архивы.
К сожалению, статистики индекса программа не ведет (в журнале указываются только время начала и завершения обработки да причины пропуска файлов), поэтому из отчета нельзя узнать, сколько и каких файлов обработано. Из-за того же измерять скоростные параметры программы при индексировании пришлось вручную. Как оказалось, простые текстовые файлы обрабатывались со скоростью 50 Мбайт/мин, а те же тексты, запакованные в архивы RAR, — со скоростью 2,7 Мбайт/мин. Библиотеку книг в архивах RAR общей численностью 15 тыс. и «весом» 2,2 Гбайт Superior Search проиндексировала за 12 ч — время вполне приемлемое.
С момента создания базы индексов Superior Search запустила процесс фонового индексирования, т.е. автоматически начала отслеживать актуальность текущего индекса. Как только я добавляла новый файл в одну из проиндексированных папок или изменяла существующий, программа самостоятельно обновляла базу индексов. Кстати, оказалось, что нужно осторожно относиться к изменению числа поддерживаемых языков в настройках программы. Стоило в этих настройках добавить к русскому языку английский, как программа удалила всю индексную базу, а ее индексатор начал строить ее заново, на что, естественно, ушло дополнительное время.
Индексация базы The Bat! |
Superior Search поддерживает морфологический поиск на русском языке — были найдены все грамматические формы слов (поиск — поиска, поиску...). Опция «Только целые слова» исключала слова, образованные с помощью суффиксов или приставок («поисковик»). А вот словарная морфология программой не поддерживается, поэтому по запросу «собака» я не нашла ни «пса», ни «щенка».
Результат поиска представляется в виде двух независимых списков документов, найденных в файлах и в почте. Списки большие, поскольку нельзя сузить область поиска, а можно лишь ограничить его по дате и размеру файлов. Однако добиться хороших показателей релевантности поиска удалось сортировкой списков по атрибутам файлов или по рейтингу и выполнением последовательного «Поиска в найденном».
Просмотр результатов поиска Superior Search |
Документы из списка можно было просмотреть во внутреннем просмотрщике или открыть в «родном» приложении, а также выполнить над ними любые действия, доступные по стандартному меню Windows. Некоторое неудобство доставляло отсутствие во встроенном просмотрщике навигации по найденным документам, из-за чего перемещаться можно было лишь по вхождениям внутри текущего документа.
Итак, Superior Search 2005 — одна из немногих на сегодняшний день поисковых систем, поддерживающих русский язык и имеющих интерфейс и справочные материалы на русском языке. С ее помощью можно обнаружить документы и файлы основных форматов, даже если они спрятаны в почтовых вложениях, да еще и упакованы в архив. С релевантностью и удобством представления результатов все в порядке. По скорости предварительного индексирования неупакованных документов Superior Search уступает «Архивариусу 3000» примерно в 1,5 раза, а остальные аналоги превосходит в 2—3 раза. Программа поддерживает не только архивы ZIP, но и многие другие, и индексирует эти архивы гораздо быстрее аналогов, уступая только «Архивариусу 3000» (в 10 раз). Отсутствие ограничения на размер индекса (как у Cros) позволяет Superior Search обрабатывать большие массивы информации. Внутренняя система мониторинга, которая отслеживает любые изменения документов, отправку и получение новых почтовых сообщений, а также наличие автоматического обновления через Интернет сводит до минимума пользовательские усилия по уходу за программой. Superior Search весьма хороша, однако «нового слова» в локальном поиске я в ней все же не нашла, как ни старалась.
Прямой или медленный поиск
Поисковые инструменты присутствуют в любой операционной системе, во многих приложениях и файловых менеджерах. Ими мы и пользуемся чуть ли не каждый день: стандартным «Помощником по поиску» Windows, встроенным поиском в Total Commander или Far, функцией поиска по архивам WinRAR и др. Упомянутые средства всегда под рукой, и это главное, если не единственное их достоинство. А вот недостатков гораздо больше. Один из основных — слишком долго ищется и не всегда находится то, что нужно. К этому можно добавить ограниченный перечень форматов и кодировок файлов, по которым возможен поиск, неудобство представления результатов, невозможность сохранения поисковых запросов и т.д., но это уже мелочи.
Избавиться практически от всех таких досадных мелочей может помочь программа, аналогичная бесплатной AVSearch (www.avtlab.ru). Она ищет файлы по фрагментам текста в любой русской кодировке и, главное, находит их в любых местах: в архивах (около 20 форматов), в кэшах браузеров, на сетевых дисках, в «Корзине» и т.д. И работать с ней легко и приятно. В числе достоинств — просмотр найденных документов в текстовом виде с помощью встроенных средств, автоматическое выделение (подсветка) искомых слов и навигация между ними, сохранение списка файлов для дальнейшей обработки, доступность всех файловых операций (удаление, переименование, копирование), выбор для поиска различных папок (в том числе находящихся на разных дисках), «фильтрация» файлов (по размеру, типу, дате изменения). Однако AVSearch так же медлительна, как и перечисленные выше средства.
Недостатки службы индексации Microsoft
- Индексируется ограниченный набор типов файлов, для которых имеются фильтры: документы Microsoft Office, текстовые документы, почта Интернета и группы новостей. Естественно, и поиск возможен только по этим типам документов.
- Результат поиска представляется в неудобной и некомпактной форме. Зачем-то в отдельном поле в текстовом виде отображается путь к найденному документу, хотя эта ссылка прекрасно видна при наведении указателя мыши на название документа, - явное дублирование информации. Зато самое необходимое в результирующем списке отсутствует: не указывается тип документа, не выводятся фрагменты найденного текста, непонятно, какие именно слова были найдены в нем, не говоря уже о предоставлении кэшированных версий документов.
- Найденные файлы нельзя открыть в окне "родного" приложения, а только в MSIE.
- Сортировка по "Рангу" не приводит к появлению в начале списка документов, наиболее точно отвечающих запросу; впереди зачастую оказывается "мусор". Отсутствует функция уточнения поиска (поиск в найденном).
Запросы программ
Для работы всех программ на жестком диске требуется свободное место для хранения индексов — как минимум 30% от общего объема файлов, которые подлежат индексации.
Компьютер должен иметь более 128 Мбайт оперативной памяти и процессор с тактовой частотой выше 400 МГц. На более слабых машинах существенно замедляется процесс создания и обновления индекса и поисковые запросы выполняются программами далеко не мгновенно. Исключение составляет Cros, нетребовательная к ресурсам системы.
Все программы (кроме GDS) работают под управлением различных версий операционной системы Microsoft: Windows 98/Me/NT4/2000/XP/2003. GDS функционирует только в Windows XP/2000, причем для последней нужен установленный SP3 (пакет обновлений Microsoft Service Pack 3). Cros для этой же ОС требует SP2, а для Windows NT — SP6.
«Ищейка» для каждого пользователя предоставляет возможность иметь собственный набор зон поиска и персональные настройки (для Windows NT4/2000/XP).
Для установки программы необходимы права администратора.
Для индексирования e-mail-сообщений в MS Outlook «Ищейка» нуждается в установке этого почтового клиента. По той же причине «Следопыту» нужен пакет MS Office.
Морфология поиска
Существует два типа морфологии поиска — словарная или нечеткая. Типом морфологии поиска определяется алгоритм, по которому будет составляться индекс и выполняться поиск файлов в указанной области. От значения этого параметра зависят результаты поиска.
Если выбрана словарная морфология, при поиске учитываются все грамматические варианты слов. Будут найдены документы, которые содержат фразы и слова запроса во всех грамматических формах («человека», «человеку», «люди», «людьми» и т.д.).
Результаты поиска окажутся более точными, однако составление или обновление индекса займет довольно много времени. Если же выбрана нечеткая морфология, слова будут приведены к наиболее вероятной основе без учета грамматических форм («соль», «соловей», «солить»). Использование нечеткой морфологии значительно уменьшает время индексации и поиска.
Поисковые термины
Фильтры документов представляют собой программные компоненты, обрабатывающие структуру документов определенного типа, таких как документы Microsoft Word или HTML. Используя фильтры, служба индексирования извлекает из всех документов в каталоге текстовое содержимое и значения свойств и отправляет их в модуль построения индекса. Этот процесс называется индексированием.
Запросы, вводимые с помощью специальных форм, — по умолчанию текстовые запросы в свободной форме. Расширенный запрос позволяет воспользоваться дополнительными функциями языка запроса, используемого в поисковой программе. Например, можно составить запрос на определенные свойства документа и работать с такими мощными средствами языка запросов, как запрос с заданием важности слов.
Программы для локального поиска
Некоторые относительно малоизвестные фирмы (например, dtSearch, Enfish, ISYS, X1, ZyLAB, Terra Lycos, Blinkx и Copernic) уже выпустили свои поисковые программы, подобные Google Desktop Search. К концу 2005 г. подобный продукт представила Microsoft. Разработкой аналогичных поисковиков занимаются также компании Apple, AOL и Ask Jeeves. Большой набор поисковых средств предлагается украинской фирмой «Мета». Имеется ряд продвинутых корпоративных продуктов, которые трудно получить обычному пользователю, к тому же они дороги: Altavista Desktop Search, RetrievalWare, Яndex.Server, dtSearch Desktop.