Запуск поисковой машины в Интернете — знаковое событие. Оно знаменует либо по-явление более эффективных поисковых алгоритмов, либо изобретение оригинальных способов достижения экономической окупаемости такой системы.
Компания-разработчик «Стек Груп» и RTComm.RU, предоставившая высокоскоростные каналы своей магистральной сети, смело объявив об открытии доступа к новой поисковой системе «Черепаха» (www.turtle.ru), опирались на инновации в обеих областях.
Руководитель группы разработчиков Д. В. Крюков, использовав опыт, полученный при создании системы «Рамблер», наделил свое второе детище целым рядом уникальных свойств. Так, стал возможен поиск адресов электронной почты, названий сайтов, фраз с повторяющимися словами. Найти в Сети дубль (в том числе и нечеткий) большого фрагмента текста теперь стало легче. При выполнении запроса учитывается язык документа, контекст, морфологическая форма, уровень значимости слова (цвет шрифта, частота употребления) и т. д. Бесполезными станут усилия любителей с помощью различных ухищрений поднять рейтинг своих сайтов — «Черепаха» их распознает. Умеет она читать и документы разнообразных «нетекстовых» форматов.
Хотя алгоритмы поиска могут учитывать морфологию 24 языков, в том числе и эсперанто, область передвижения «Черепахи» пока ограничена русскоязычной частью Интернета. На момент запуска в конце июня в системе было учтено около 80 млн. документов общим объемом в 1,8 Тбайт. В настоящее время над пополнением коллекции постоянно трудятся 12 машин, просматривающих около 5 млн. ссылок в день. Владельцы системы стремятся сократить время обхода всего Рунета до одного дня.
Google достижим в принципе, говорит Д. В. Крюков, но для этого пока не хватает вычислительных мощностей. И это несмотря на уникальную особенность новой поисковой машины. Ее распределенная структура позволяет отдельным компонентам находиться на разных компьютерах, что открывает пути использования для обработки запросов серверов различных организаций. Именно на этой особенности (кроме лицензирования) будет строиться экономическая модель работы «Черепахи». Взяв эту систему в аренду за относительно небольшую плату, на ее базе можно строить свои распределенные поисковые машины, которые смогут пользоваться и центральной базой индексов.
А. О.