Соперники готовы: настольные механизмы поиска начинают отбор данных

При хранении устаревших данных, особенно на внутренних носителях, большинство пользователей дожидаются определенного уровня их заполнения. Удаление старых сообщений — рутинный процесс, и обычно мы откладываем его до тех пор, пока в почтовом ящике не останется свободного места. Квоты почтового ящика постоянно возрастали с момента первого выпуска компанией Microsoft пакета Exchange Server в 1996 году, и сегодня большинство корпоративных почтовых ящиков позволяют хранить 150-300 Мбайт данных, без учета файлов в личном хранилище (PST), накапливаемых пользователями Microsoft Outlook за время работы. Режим кэширования Cached Exchange Mode в пакете Microsoft Office Outlook 2003 позволяет хранить полную локальную копию почтовых ящиков Exchange. А более вместительные диски могут хранить еще больше информации. Так зачем беспокоиться? Можно просто сохранять, сохранять, сохранять... Такое накопление не вызывает проблем до тех пор, пока поиск нужного сообщения не превратится в поиск иголки в стоге сена. К счастью, и Google, и Microsoft предлагают поисковые механизмы для настольных систем, которые могут помочь пользователям копаться в этом стоге. Какое средство выбрать? Давайте сравним пакеты Microsoft Lookout и Google Desktop.

Конкуренты

Microsoft Lookout — это бесплатное дополнение к Outlook, которое предоставляет более широкие возможности индексации и возврата, чем те, которыми обладают стандартные процедуры Find, Advanced Find и Search Folders. Microsoft не сообщает, когда технология появится в продуктах компании, хотя недавно выпущенная новая версия пакета Windows Desktop Search (доступен на сайте http://toolbar.msn.com) дополняется пакетом Google Desktop. Пакет Windows Desktop Search имеет дополнение от компании Adobe, которое позволяет проводить поиск по файлам PDF. Относительная завершенность пакета Lookout (Microsoft приобрела сам продукт и фирму-разработчика в июле 2004 года) дает повод надеяться, что вскоре он будет включен в состав Outlook, но в то же время Lookout можно использовать уже сейчас. Разработчики предупреждают, что рассчитывать на формальную поддержку, выпуск отладочных пакетов или усовершенствованных версий рано, так как сейчас они заняты интеграцией своей работы в продукты Microsoft. Однако при работе с Lookout в прошлом году я не сталкивался с какими-либо проблемами. Продукт кажется достаточно надежным.

Слово Google для большинства пользователей является синонимом слова «поиск», поэтому пакет Google Desktop (выпущен в октябре 2004 г., вторая версия — в августе 2005 г.), с его способностью искать данные Outlook в файлах и на Web-ресурсах, способен составить серьезную конкуренцию продукции Microsoft в области поиска для настольных систем. В таблице приводятся сравнительные характеристики двух продуктов. Рассмотрим их функциональные возможности более подробно.

Установка и индексация

Загрузить пакет Lookout 1.2 можно по адресу http://www.lookoutsoft.com/Lookout/lookoutinfo.html; пакет Google Desktop доступен на странице http://desktop.google.com. Lookout поддерживает пакет Outlook 2000 и более поздние версии, но до установки Lookout необходимо установить пакет .NET Framework 1.1 (доступен на http://msdn.microsoft.com/ netframework/downloads/framework1_1). Google Desktop поддерживает системы Windows 2000 Service Pack 3 (SP3) и Windows XP и не требует наличия пакета .NET Framework. Помимо почты, Google Desktop поддерживает индексацию только страниц, размещенных в буфере браузера, браузеры Internet Explorer (IE) и Mozilla Firefox. Google также индексирует файлы на жестком диске, в том числе документы Microsoft Office. Оба продукта устанавливаются быстро и без проблем. После установки Outlook каждый раз при запуске загружает пакет Lookout как COM-дополнение. Google Desktop работает как персональный Web-сервер, использующий три процесса и загружающий библиотеку собственного помощника по работе с браузером IE.

Обычная модель работы Lookout — индексация данных в момент, когда Outlook не активно, то есть она добавляет новые элементы в индекс каждый час, но только если приложение Outlook не занято. По умолчанию Lookout заново перестраивает весь индекс каждую неделю, чтобы гарантировать корректность и актуальность индекса. Lookout сигнализирует о проведении индексации с помощью отдельных всплывающих окон, которые могут быть закрыты приложениями. Пользователи могут использовать настройки в панели Index диалогового окна Lookout Options для установки времени (периодов) индексации. Как показано на экране 1, можно задействовать эти настройки для указания файлов, подлежащих индексации. Так как продукт является дополнением к Outlook, очевидно, стоит начать с индексации данных Outlook в обеих папках Exchange (почтовый ящик и общие ресурсы) и файлов PST. Можно добавить источники в индекс с помощью пунктов Add Outlook (для указания папок в почтовых ящиках, общих ресурсах и файлов PST) или Add Files (для добавления файлов с любого диска, к которому компьютер имеет доступ).

Экран 1. Индексируемые Lookout файлы

Google Desktop дожидается низкого уровня системной активности, а затем выполняет индексацию практически тем же способом, что и Lookout. Однако в Google Desktop диалоговое окно Preferences предлагает меньше возможностей управления программой. Пользователи могут выбирать, какие источники данных подлежат индексации, а какие не подлежат. Google Desktop не образует связку с Outlook подобно Lookout, поэтому он может также индексировать сообщения Microsoft Outlook Express. Отметим, что продукт Google имеет возможность отсылать в родительскую компанию данные неличного характера о своем использовании и сбоях. Я решил отключить эту возможность и думаю, что так же поступит большинство пользователей, прежде всего из соображений безопасности. Более подробное описание отсылаемых неличных данных, возможно, и могло бы склонить меня к такому виду сотрудничества.

Основное различие между Lookout и Google Desktop — более тесное объединение продукта Google с браузером, что позволяет продукту перехватывать поисковые запросы, как только они появляются, разделять их на локальные данные и Web-данные (отсылая запрос на сайт компании Google при поиске данных на Web-ресурсах), после чего соединять два потока данных с результатами в единый отчет. Также Google Desktop не индексирует файлы, присоединенные к письмам, и содержание общих ресурсов, в отличие от Lookout. Если будет разрешено, Google Desktop может индексировать сетевые обсуждения в AOL Instant Messenger (AIM) (но не в Microsoft Instant Messenger). Я не думаю, что многие будут использовать эту возможность, так как сетевые обсуждения всегда рассматривались как кратковременный и малосодержательный (с точки зрения объема информации) тип связи. Но если предпочтительно индексировать разговоры в IM, можно организовывать новые обсуждения со ссылками на сохраненные сессии.

По умолчанию, Google Desktop индексирует все локальные диски. Такой подход может вызвать проблемы, если используется программа на системе с общими папками, так как индексация может объединять данные из источников, которые нежелательно включать в отчет о поиске.

Обе программы начинают индексацию данных сразу после установки, но Lookout представляет более высокий уровень управления операцией индексирования, чем Google Desktop. Например, чтобы построить индекс немедленно, можно просто выбрать пункт Indexer в меню Lookout и нажатьStart. Lookout также отображает шкалу выполнения и подробную отчетность по выполнению индексации. Если система пассивна, индексация выполнятся быстро. В моем случае программа Lookout выполнила индексацию 23 520 документов в Exchange и папках на дисках за 10 минут. Конфигурация компьютера: 1.6 ГГц Pentium M, 512 Мбайт оперативной памяти. Я использовал клиент Outlook 2003, работающий в режиме Cached Exchange Mode, поэтому все данные были локальными. Если индексировать данные в общих папках, не синхронизированных с локальным кэшем, или использовать версию Outlook, которая не поддерживает режим Cached Exchange Mode, индексация будет проходить медленнее, так как Lookout придется соединяться с сервером Exchange для получения данных.

Google Desktop ждет перехода системы в пассивное состояние 30 секунд, после чего начинает индексацию. В моем случае на построение начального индекса у пакета Google Desktop ушло значительно больше времени, чем у Lookout, в особенности для почты. К тому же при построении индекса Google Desktop сильнее, чем Lookout, замедлил работу системы. Это влияние на производительность может иметь значение, если запускать службу Google Desktop на устаревшем оборудовании. Частично замедление можно объяснить тем, что Google Desktop индексирует больше данных, чем Lookout (и помните, вы обладаете меньшими возможностями управления при выборе объектов индексации, чем при работе с Lookout). Lookout быстрее индексирует почту (возможно, это объясняется его тесным союзом с Outlook) и предоставляет более быстрый доступ к данным, чем Google Desktop, начинавший с поиска Web-ресурсов.

После создания начального индекса обе программы начинают добавлять новые элементы данных в индекс. Google Desktop добавляет новые элементы быстрее, чем Lookout, и включает почтовые сообщения в отчет поиска спустя несколько минут после их создания (отправки или получения). Для сравнения, Lookout может понадобиться час или даже больше, чтобы включить новый элемент в индекс. Ни одна из программ не может быстро исключать удаленные объекты; возможно, придется подождать до полной перестройки индекса (по умолчанию, еженедельная задача для Lookout), прежде чем удаленные элементы будут исключены. Трудно сказать, когда Google Desktop приступает к исключению удаленных элементов, так как программа не обеспечивает пользовательский интерфейс для настройки времени исключения старых данных. Однако если обнаружились устаревшие данные, можно исключить их с помощью пункта меню Remove.

Экран 2. Дополнительные параметры Lookout

На экране 2 показана панель Advanced диалогового окна Lookout Options. Эта панель позволяет указать, где Lookout будет хранить файлы с индексом, и выбрать типы файлов, подлежащих индексации (обычно типы файлов Office). Файлы с индексом находятся в папке Reader в корне папки, назначенной Lookout, поэтому полный путь к папке — Documents and Settings UsernameLocal SettingsApplication Data LookoutSoftwareLookoutData.OutlookIndexReader. На экране 2 также показан список типов файлов, которые будет индексировать Lookout. Список типов файлов появляется в редактируемом поле, поэтому я попытался добавить расширение .pdf в список, чтобы Lookout индексировала множество файлов Adobe PDF в моем почтовом ящике и на диске. К сожалению, это не сработало. Файл подсказки Lookout не помог мне понять, как включить дополнительный тип файла в индекс, поэтому я предполагаю, что требуется обновленное программное обеспечение для чтения и индексации новых типов файлов. Так, пакету Microsoft SharePoint Portal требуется приложение iFilter для поддержки типов файлов при индексации. Так как теперь Lookout находится в режиме эксплуатации, я не думаю, что Microsoft быстро добавит эти новые функциональные возможности.

Для Google Desktop файлы с индексом по умолчанию располагаются в папке C:Documents and Settings UsernameLocal SettingsApplication DataGoogle Google Desktop Search, но можно установить и альтернативный путь размещения в разделе регистра HKEY_CURRENT_USER SoftwareGoogleGoogle Desktopdata_dir. Версия Google Desktop 1.0 также не может индексировать файлы PDF, но она способна индексировать имена файлов PDF и других файлов, найденных на диске. Она добавляет эти данные в индекс, поэтому можно проводить поиск по имени. Недавно выпущенная версия Google Desktop 2.0 распознает файлы PDF, а также массу других типов файлов, добавленных компанией Google.

Размер файлов с индексом зависит от типа индексируемых данных. Например, я полностью индексирую свой почтовый ящик и множество папок на локальном диске. При последнем измерении мой почтовый ящик содержал 19 852 элемента (943 Мбайт данных), а индексируемые папки 3628 файлов (5,92 Гбайт). В результате файлы с индексом имели в совокупности размер 68,5 Мбайт, или приблизительно 1% индексируемых данных. На моей системе файлы Google Desktop занимали примерно в два раза больше места, чем файлы Lookout. Однако такое сравнение необъективно, так как Google Desktop индексирует гораздо больше данных, чем Lookout. Можно выяснить, сколько файлов входит в индекс, щелкнув правой кнопкой мыши по значку Google Desktop Search на панели инструментов рабочего стола и выбрав пункт Status.

Поиск

Для выполнения поиска пользователи вводят фразы или слова в текстовое поле. На экране 3 показан поиск в Lookout элемента, содержащего фразы RSG и Сached Exchange mode. Элементы вверху списка наиболее точно совпадают с критерием поиска. Пользователи могут просмотреть содержание элемента списка, дважды щелкнув по нему мышью (если только за время, прошедшее с момента индексации, элемент не был перемещен или удален). Пользователи могут дополнительно сузить область поиска, указав время или другое ограничение, поддерживаемое службой Lookout, в том числе: показ элементов только за прошлую неделю или прошлый месяц, показ только элементов, посланных адресатами из списка контактов Outlook Contacts, показ только элементов из папок Outlook, показ только элементов с индексируемых дисков системы, показ только сообщений с прикрепленными файлами. Следует иметь в виду, что, когда пользователи проводят мышью над почтовым сообщением в списке возвращенных элементов, Lookout отображает первые несколько строк текста из содержания, чтобы помочь в поиске нужного элемента.

Экран 3. Поиск в Lookout

Для обработки сложных запросов - например, сообщения от Кирана Маккорри с прикрепленным файлом Word, содержащим фразу ExBPA в тексте, - Lookout представляет средство Search Builder, вызвать которое можно, щелкнув на значке с молнией, расположенной рядом с полем Search for. Средство Search Builder, показанное на экране 4, позволяет создавать сложные поисковые запросы, с комбинированием различных критериев для сужения области поиска. Однако файл подсказки Lookout содержит лишь элементарные сведения о том, как строить сложные запросы на поиск, поэтому для овладения возможностями средства Search Builder потребуется некоторое время.

Экран 5. Поиск в Google Desktop

Поиск с помощью Google Desktop в точности совпадает с использованием любого поисковика от Google. Достаточно вести элемент поиска, и результат появится почти мгновенно. На экране 5 показан поиск элементов, содержащих фразы EXBPA и Foster, в результате которого найдено 9 объектов: 7 сообщений, 1 файл и одна буферизированная Web-страница. Порядок данных задается по умолчанию, но можно перестроить список в порядке релевантности, щелкнув по кнопке Sort by relevance. Как и его аналог для поиска в Web, инструмент Google Desktop поддерживает использование операторов булевой алгебры и множества других ключевых слов, известных приверженцам Google. Например, Google Desktop позволяет сузить поиск до документов Word, указав ключ filetype:DOC, или же можно исключить из области поиска все, что связано с безопасностью, с помощью ключа-security. Можно сузить область поиска до почтовых сообщений, добавив ключевое слово filetype:email в строку поиска. Google Desktop — мощный поисковый механизм, но работа с ним напоминает будни администратора системы UNIX: необходимо знать все параметры командной строки и скрытый синтаксис, чтобы получить от механизма полную отдачу. Большинство пользователей Outlook, вероятно, предпочтут пользовательский интерфейс средства Search Builder в пакете Lookout. Google Desktop будет иметь преимущество при модернизации поисковой страницы, позволяющей строить запросы более простым способом.

При выборе почтового сообщения Google Desktop отображает буферизированную копию содержания сообщения, неформатированную HTML-версию сообщения. Можно ответить, переслать сообщение или просмотреть его форматированную версию в Outlook, если сообщение находится в том же месте, где его индексировал поисковик Google. Даже если сообщение удалено, буферизированная копия остается доступной до тех пор, пока Google не удалит ее из буфера. Другая полезная особенность Google Desktop — возможность группировать сообщения с одинаковой темой в цепочки обсуждения, что позволяет читать все реплики одновременно, как показано на экране 6.

Экран 6. Последовательность обсуждения в Google Desktop

Конечно, настольные механизмы поиска пока далеки от совершенства. Идеальное средство поиска для настольных систем будет сочетать характеристики служб Lookout и Google Desktop. Lookout — программа, в большей степени ориентированная на Outlook, и ее интерфейс пользователя является более доступным и в некотором отношении более простым, особенно при построении сложных запросов. Google Desktop теснее связывает личные данные с Web-ресурсами и обеспечивает простой, быстрый способ ориентирования в море информации. Преимущества обеих программ раскрываются при использовании их дополнительных возможностей, поэтому стоит потратить время и научить персонал ориентироваться в массе объектов, найденных при первичном поиске, и отбирать действительно нужную информацию. Я полагаю, что многие люди установят обе программы и будут следить за разработками компаний Microsoft и Google, как только те выпустят полностью готовые продукты. Ни один продукт не совершенен, но оба поставляются бесплатно и оба делают работу пользователей немного проще.


Тони Редмонд - Внештатный редактор Windows IT Pro, старший технический редактор Exchange & Outlook Administrator, вице-президент и главный технолог HP Services. Автор выпущенной издательством Digital Press книги Microsoft Exchange Server 2003 with SP1. exchguru@windowsitpro.com