«Яндекс» становится умнее | Computerworld Россия | Издательство «Открытые системы»

Аркадий Волож: «Новая технология позволила увеличить точность поиска в Интернете на порядок» Помимо нашей страны, национальные поисковые системы доминируют только в США, Китае, Южной Корее и Чехии.

Разработка и развитие поисковых систем неразрывно связаны с достижениями «машинного обучения» — области знаний, которая зародилась в 50-е годы. Именно тогда, в эпоху «холодной войны» и повсеместного применения радиолокации, возникла задача автоматической сортировки обнаруживаемых целей по принципу «свой–чужой», поскольку при большом числе фиксируемых объектов «живой» оператор не мог этого делать достаточно быстро.

Сегодня принципы машинного обучения широко используются для обработки значительных массивов информации, например для распознавания текста, изображений, образов и голоса. По словам генерального директора «Яндекса» Аркадия Воложа, развитием теорий машинного обучения занимаются разные научные школы, но основой такой деятельности являются общие и достаточно простые принципы: человек описывает исследуемый объект с помощью множества факторов, «объясняет» машине на примерах, как следует делать выбор, а потом машина начинает самостоятельно определять самые важные факторы и формулировать правила поиска решений. Другими словами, обучив машину на тысяче примеров, мы получаем возможность автоматизировать обработку миллионов объектов.

Наибольший авторитет имеют две школы машинного обучения. Метод одной из них, созданной отечественными учеными Владимиром Вапником и Алексеем Червоненкисом, ныне работающим в «Яндексе», получил название Support Vector Machines. Сейчас SVM, позволяющий быстро анализировать до сотни факторов, используется всеми поисковыми системами Интернета, в том числе Google и Yandex. Другой метод, Boosting, был разработан американцами Робертом Шарипе и Джеромом Фридманом; их детище работает очень медленно, зато может анализировать тысячи факторов.

Алгоритм TreeNet, применяемый в методе Boosting, по праву считается лучшим в области машинного обучения. Именно TreeNet был задействован группой сотрудников «Яндекса» под руководством Андрея Гулина и Павла Карповича при разработке принципиально новой поисковой машины MatrixNet, запущенной компанией 17 ноября 2009 года. Основой решения, рассказывает директор по технологиям «Яндекса» Илья Сегалович, стали устойчивые решающие правила, в которых используются матричный принцип, кластеризация вычислений и учет каждого обучающего примера. Комбинация этих и ряда других принципов позволила устранить основной недостаток машинного обучения — излишнюю «заумность» правил, самостоятельно формулируемых машиной после анализа информации. В результате удалось получить технологию, обеспечивающую при поиске учет тысяч факторов и одновременно быструю работу.

Как сообщил Волож, новая технология позволила увеличить точность поиска на порядок. После запуска MatrixNet произошел настоящий скачок качества поиска — в числовом значении этот показатель увеличился на 5%. Дабы оценить успешность проекта, достаточно сказать, что ввод в эксплуатацию новой версии поисковика оправдан уже в том случае, когда он дает прирост качества 0,1%.

По мнению Воложа, принципы технологии MatrixNet будут реализованы всеми ведущими поисковыми системами уже в этом году. Однако в «Яндексе» успели в полной мере воспользоваться полученной форой: впервые с октября 2006 года рыночная доля «Яндекса» на российском рынке превысила 60%.