состояния машинного перевода, анализируются тенденции развития и рассматриваются основные научные и практические результаты, полученные за истекшие два года. В конце октября 1997 г. в Сан-Диего (Калифорния) состоялась шестая встреча.
На этот раз конференция была посвящена 50-летней годовщине первых попыток машинного перевода и проходила под девизом: "Машинный перевод: настоящее, прошлое и будущее". Поэтому кроме обычно собирающихся на такую встречу профессионалов, вовлеченных в исследования в этой области, были также приглашены "пионеры" машинного перевода - те, кто создавали в 50-е годы первые программы. Это и определило тональность конференции, многие доклады на которой действительно претендовали на подведение итогов всей истории машинного перевода. По специальному приглашению устроителей была проведена презентация системы STYLUS, вызвавшей интерес участников прежде всего в силу достигнутого практического результата в создании реальных инструментов автоматизации процесса перевода.
Многие докладчики на конференции так или иначе возвращались к драматической истории развития машинного перевода. Датой рождения машинного перевода (как области исследований) принято считать 1947 г., и все началось с письма Уоррена Уивера, директора отделения естественных наук Рокфеллеровского фонда, к Норберту Винеру в марте этого года, в котором задача перевода сравнивалась с задачей дешифровки текстов. Последняя в то время уже стала выполняться на электромеханических устройствах. За этим письмом последовало множество дискуссий, появился меморандум о целях, и наконец, были выделены средства на исследования. И в 1952 г. состоялась первая конференция, организованная знаменитым математиком Бар-Хиллелем, на которой исследователи обменялись мыслями относительно организации множества синтаксических правил языка, способов описания семантики, морфологических структур, структуры словарей для систем перевода. Достижения в академических исследованиях стимулировали коммерческий интерес к проблеме машинного перевода, и фирма IBM совместно с Джорджтаунским университетом в США в 1954 г. сумела показать первую систему, базирующуюся на словаре из 250 слов и 6 синтаксических правил и обеспечивающую перевод 49 заранее отобранных предложений. Этот эксперимент положил начало исследовательскому буму: в следующие 10 лет правительство и военные ведомства США затратили на исследования в области машинного перевода около 40 млн. долл.
От эйфории, связанной с первыми результатами, до практически полного отрицания осуществимости машинного перевода прошло всего восемь лет. К подобному выводу пришли на основании обзора, выполненного специальным комитетом по прикладной лингвистике (ALPAC) Национальной Академии наук США. В нем констатировалось, что системы автоматического перевода не смогут обеспечить приемлемое качество в обозримом будущем. Этот отчет драматически повлиял на развитие машинного перевода, так как были практически прекращены какие бы то ни было исследования из-за отсутствия финансирования по крайней мере в США и Европе. И лишь в конце 70-х годов занятия машинным переводом возобновились вместе с возрастанием интереса со стороны проектировщиков и исследователей к лингвистическим проблемам искусственного интеллекта и компьютерного поиска информации.
90-е годы можно считать подлинной эпохой возрождения в развитии машинного перевода, что связано не только с высоким уровнем возможностей персональных компьютеров, появлением сканеров и программ OCR, но и с распространением Internet/intranet, обусловивших реальный спрос на машинный перевод. Он вновь стал привлекательной областью вложения капиталов как для частных инвесторов, так и для государственных структур. Страны Европейского Союза потратили за последние 15 лет более 70 млн. долл. на исследования по этой проблеме, а японские государственные организации - более 200 млн. долл. По словам T. Р. Педтке (представителя правительства США), сделавшего очень интересный доклад на MT SUMMIT VI о стратегической важности машинного перевода для его страны, одну из главных ролей в развитии этого направления продолжает играть правительство. Проблема машинного перевода рассматривается как ключевая в вопросах продвижении высоких технологий и обеспечении конкурентоспособности США в глобальном информационном пространстве.
С воспоминаниями "о том, как все было на самом деле" на конференции выступали руководители первых проектов в разных странах: В. Ингве, И. Мельчук, П. Тома, К. Монтгомери, М. Заречняк, Л. Роллинг и др. Все охотно делились воспоминаниями об энтузиазме первых лет, о трудностях работы с перфокартами и огромными компьютерами. К сожалению, о том, каков был уровень самих систем и удалось ли их реально использовать, "пионеры" умолчали. Скорее всего, эти первые проекты действительно не дали никаких реальных результатов, но зато были выявлены многие основные проблемы перевода текстов на естественном языке: многозначность слов и синтаксических конструкций, практическая невозможность глобального описания семантической структуры мира даже в ограниченной предметной области, отсутствие эффективных формальных методов описания лингвистических закономерностей и т. д.
Не менее интересными на этой встрече были выступления, отразившие текущее состояние и перспективы машинного перевода, в частности доклады о научных разработках в Европе, Азии и Северной Америке. Свои системы демонстрировали практически все компании, работающие на мировом рынке в этой нише: SYSTRAN Software Inc, Logos Corp., Globalink Inc, GMS GmbH, Alis Technologies Inc., Toshiba Corp., CompuServe, EPI*USE Systems Ltd., Fujitsu Corp., TRADOS Inc., PAHO MT и российская компания ПрoMT. Система STYLUS была представлена уже под новым именем PROMT 98.
Все выступившие отметили определяющее влияние Internet на усиление потребности в системах машинного перевода. Подобная точка зрения нашла отражение и в обзорных докладах признанных теоретиков Г. Соммера, С. Ниренбурга и М. Нагао, и на презентациях конкретных систем. Почти все разработчики демонстрировали специальные средства для работы в Internet. Они функционально различаются, например, системы компаний Logos, SYSTRAN и CompuServe обеспечивают перевод только на своих серверах, а Globalink, ASTRANSAC (Toshiba) и ПроМТ предлагают другое решение, обеспечивая онлайновый перевод HTML-страниц с сохранением форматирования и возможности перехода по ссылкам в переведенной странице.
Еще одной очень важной особенностью конференции стали доклады профессиональных пользователей машинного перевода, в частности компании SAP AG, которая является европейским лидером в разработке прикладного программного обеспечения. В течение многих лет она испытывает системы машинного перевода разных производителей при локализации своих программных продуктов. В докладе представителей компании отмечалось, что машинный перевод становится эффективным только при настройке словарей на специальную терминологию, принятую в компании, а также при повторяемости типов обрабатываемых документов. На это же обстоятельство обращали внимание и другие профессиональные пользователи систем машинного перевода, такие как Lintech A/S (Дания) или Hook&Hatton, Ltd (Англия). Компания Lintech даже объявила об учреждении награды в 10 тыс. долл. наиболее выдающемуся ученому в области машинного перевода в знак признания важности этого вида деятельности для развития их бизнеса. Эта премия по решению Международной ассоциации разработчиков машинного перевода была вручена на конференции доктору М. Нагао, который руководит исследованиями в университете Киото (Япония).
Для представителей компании ПроМТ доклады профессиональных пользователей оказались особенно интересными, так как точка зрения, высказанная в отношении систем семейства STYLUS, практически совпадает с идеологией компании. Их устраивают удобства интерфейса для настройки на тип документа, возможности настройки на предметную область с помощью пользовательских и специализированных словарей, стандартизация терминологии; возможности пост- и предварительного редактирования делают систему более эффективным средством перевода. К этому кругу пользователей STYLUS можно отнести компании Lucent Technology, Inc, международную организацию INMARSAT, компании "Невская косметика", переводческое бюро ЛОНИИС, выполняющее заказы с помощью системы STYLUS, и ряд других.
Самым искушенным пользователем систем машинного перевода в мире является, пожалуй, служба машинного перевода при комиссии Европейского Союза. В настоящее время потребности в переводах внутри комиссии обеспечивают 1100 переводчиков, 100 лингвистов, 100 менеджеров и 500 секретарей, которые должны оперативно выполнять перевод всех документов на 11 официальных языков, а объем перевода составляет около 2,5 млн. страниц в год, поэтому, по словам руководителя службы г. Д. Теологитиса, проблема автоматизации процесса перевода стоит для Комиссии чрезвычайно остро. За 20 лет существования этой службой накоплен огромный опыт по созданию специализированных словарей и использованию систем машинного перевода. Основная система, используемая в этой службе, - SYSTRAN - построена на базе лингвистических исследований тех самых первых проектов, которые не привели к практическим системам прежде, но явились в 80-х годах основой для многих коммерческих проектов. Служба использует SYSTRAN для перевода документов с английского языка на испанский, французский, греческий, итальянский и немецкий, а также с французского на английский, испанский и итальянский. Она регулярно проводит анкетирование своих пользователей для выяснения эффективности применения машинного перевода, и результаты выглядят достаточно интересными: более 67% пользователей (профессиональных переводчиков!) считают этот сервис необходимым, а более 94% администраторов считают, что использование машинного перевода дает реальную выгоду. Причем пользователи-переводчики указывают на то, что выигрыш во времени при использовании машинного перевода составляет от 40% до 60% в зависимости от языка.
Вопрос о стоимости коммерческих систем не был в центре внимания конференции и в основном обсуждался в кулуарах, но и здесь также удалось получить весьма интересную информацию. Если не иметь в виду Logos Corp., которая по-прежнему не имеет программы, работающей на РС, все коммерческие программы оказались примерно в одной ценовой нише: от 199 до 399 долл. за базовый комплект для одной языковой пары. Такое единодушие является достаточно новой и характерной деталью: ведь еще шесть месяцев назад SYSTRAN стоила 999 долл., а компания MicroTac до последнего времени свои очень простые системы перевода продавала за 59 долл.
По итогам МТ SUMMIT VI можно сделать следующие выводы. Прежде всего, машинный перевод - это эффективное средство для просмотра и поиска информации на иностранном языке, и именно эта функция является главной при работе в Internet. Далее, в результате настройки на предметную область и интеграции с другими программами обработки документов средство машинного перевода позволяет автоматизировать получение перевода. И наконец, - это уникальный гуманитарный инструмент, позволяющий преодолевать проблемы общения в системах, работающих на разных языках. И пожалуй, самый главный, поистине революционный для прикладной лингвистики вывод состоит в том, что многие разработчики осознали: при создании программы машинного перевода кроме хорошо реализованной лингвистики необходима достойная программная реализация. n
Об авторе: Михаил Каничев - коммерческий директор компании ПроМТ, тел. в С.-Петербурге: (812) 275-78-87.