Разработчики программного обеспечения борьбы со спамом втянуты в игру в кошки-мышки. Им очень сложно все время на шаг опережать тех, кто рассылает эти невостребованные сообщения.
Дэйв Стриклер, генеральный директор компании MailWise. С ним можно связаться по электронной почте по адресу dstrickler@ mailwise.com |
И в первую очередь это объясняется недостатками средств фильтрации электронной почты по ключевым словам. Однако новейшая технология фильтрации, применяющая элементы искусственного интеллекта, может адаптироваться быстрее, чем «спаммеры» — менять свои сообщения.
Принципы искусственного интеллекта во многом схожи с методами обучения, используемыми человеческим мозгом. Как только человек обрел определенный навык, он способен обоснованно его применять. Похожим образом пытаются использовать и искусственный интеллект для выявления спама.
Лингвистические технологии являются мощным средством искусственного интеллекта в борьбе со спамом. В них используется набор сложных алгоритмов, с помощью которых анализируется содержание электронных сообщений. Эти алгоритмы интегрированы в программное обеспечение фильтрации почты, которое, как правило, размещается с внешней стороны межсетевого экрана или в сети ASP-провайдера.
Фильтры с возможностями искусственного интеллекта пропускают легитимный трафик на корпоративный сервер электронной почты и помечают остальные сообщения как спам. Подозрительные сообщения пересылаются в «карантинную зону», где их может просмотреть администратор и определить, что следует с ними делать, удалить или передать адресату.
Человек может быстро оценить, относится ли сообщение к спаму. Точно так же, алгоритмы естественных языков разбивают сообщения на выражения и анализируют их значение. За счет сложной обработки технология поддержки естественных языков позволяет получить общее представление о сообщении посредством анализа слов, выражений и абзацев в порядке, обратном тому, в котором алгоритмы первоначально их извлекали.
Рассмотрим пример сообщения электронной почты. «Купил аппетитно выглядевшие куриные грудки — давайте приготовим их на ужин. Если ты можешь позвать Билла, позвони мне на работу, телефон 800-262-2222, добавочный номер 231. Да, и посмотри фотографии с нашего последнего пикника по адресу http://www.ophoto.com/2623/party_pictures». Стандартный анализ ключевых слов отметит слова «грудки» и «выглядят аппетитно», увидит бесплатный телефонный номер и адрес Web-сайта. Но анализ с помощью методов искусственного интеллекта определит, что это все-таки приглашение на ужин.
Если же будет проведена фильтрация по ключевым словам, не понимая их значения, вполне вероятно, что система определит сообщение как порноспам.
Другая проблема — выбрать легитимную корреспонденцию, связанную с бизнесом. Например, сообщение электронной почты от брокера ценных бумаг своему клиенту может выглядеть следующим образом: «Сэм, я тут покопался и сегодня утром обнаружил неправдоподобно низкие ставки по закладной, причем без оплаты наличными. Если ты хочешь получить их, позвони мне сегодня, чтобы я мог придержать их для тебя. Срок оплаты одной из закладных истекает сегодня в полночь». Стандартный анализ по ключевым словам опять-таки может классифицировать это сообщение как спам, поскольку обнаружит в нем такие выражения, как низкие ставки по закладной, без оплаты наличными, истекает в полночь.
Однако анализ на базе технологии искусственного интеллекта выявит, что это было сообщение, касающееся закладных.
Даже самые изощренные методики искусственного интеллекта могут поставить под сомнение результаты анализа самого сообщения, но окончательное решение опирается не только на сам текст. Например, методы учета шаблонов передачи проанализируют, когда эти сообщения были отправлены, кто их послал и откуда они рассылаются. Допустим, сообщение было прислано с того же адреса, что и 12 других на прошлой неделе. Они все поступили с одного и того же сервера в течение обычного рабочего дня, и ни одно из них не напоминало спам. Очевидно, имеет смысл передать и новое сообщение адресату. Другие методы фильтрации могут отправить это сообщение в мусорную корзину.
Резюме: система, способная со стопроцентной вероятностью отсортировывать спам, не будет создана никогда, но методы искусственного интеллекта позволяют приблизиться к идеалу.