Приготовьтесь выбросить мыши! Компьютеры Apple Macintosh уже способны вас услышать.

Представьте себе, как легко было бы общаться с компьютером, просто разговаривая с ним.

Устная речь — идеальное средство взаимодействия с машиной не только для людей, которым вредны избыточные нагрузки, но и для тех, кто хочет их предотвратить или кому не хватает времени. Однако распознавание речи на ПК долгое время оставалось научной фантастикой. Появившееся десять лет назад новаторское решение для Macintosh — ПО PlainTalk — не получило, увы, дальнейшего развития. Сегодня технология, подобная PlainTalk, используется в Windows: разработаны четыре программы, позволяющие не только запускать приложения, давая устную команду компьютеру, но и диктовать текст так быстро, как только допускают физические возможности человека.

С приходом в компанию Apple Стива Джобса ситуация изменилась. С одной стороны, инженеры Apple усовершенствовали PlainTalk, с другой — новые компьютеры PowerMac G4 обеспечивают лучшую, чем когда-либо ранее, работу ПО для распознавания речи. Теперь корпорация Apple готова содействовать таким компаниям, как Dragon Systems и IBM, добившимся успехов в разработке продуктов для Macintosh.

IBM уже создала Mac-совместимое ПО, позволяющее ПК писать тексты под диктовку (см. таблицу). Но поскольку подобного рода программные средства непривычны для поклонников Macintosh, их использование сопряжено со значительными трудностями. Данная публикация имеет целью помочь пользователям компьютеров Apple почувствовать себя увереннее и составить представление о том, что можно ожидать от продуктов для распознавания речи на ПК сегодня и завтра.

Что такое «распознавание речи»?

Существует объективное ограничение: машина никогда не будет распознавать речь так точно, как об этом пишут фантасты. Даже люди не всегда понимают друг друга, что же можно требовать от компьютеров? И как показывает врезка «Как это понимать?», даже самое интеллектуальное ПО не может отличить, например, «hyphenate» от «minus eight»*.

Продукты для распознавания речи бывают двух типов, граница между которыми довольно условная. Во-первых, это программные средства, позволяющие управлять ОС с помощью произнесенных вслух команд, например запускать приложения или выбирать элементы меню. К ним относится PlainTalk для Mac OS 9. Во-вторых, это ПО, преобразующее произнесенные слова в печатный текст. Оно превращает Mac в виртуальную секретаршу, которая печатает под диктовку письма, записки и сообщения электронной почты (одним программам для восприятия речи требуются продолжительные паузы между словами, а другие позволяют говорить в нормальном темпе). Компьютеры Macintosh поддерживают продукты обоих типов, а также те, которые сочетают в себе возможности по управлению ОС и письму под диктовку.

ПО, которое у вас уже есть

Если вы интересуетесь системами распознавания речи, но не готовы тратить на них большие деньги, то, возможно, будете приятно удивлены, узнав, что один из таких продуктов у вас уже есть: PlainTalk. Это управляющее действиями системы ПО годами было частью Mac OS.

Работать с PlainTalk пробовало, как ни странно, незначительное число пользователей. Может быть, потому, что до появления Mac OS 9 возможности PlainTalk были очень ограничены. Или потому, что это приложение не устанавливалось автоматически: для его инсталляции с системного диска необходимо было выполнить пользовательские настройки. Или потому, что некоторые Macintosh не оборудованы необходимыми для PlainTalk микрофонами. Они входят в комплект поставки PowerMac; вы можете также использовать устройства, встроенные в мониторы iMac и PowerBook, а адаптеры iMac adapter фирмы Griffin Technology (25 долл.) позволяют подключать к iBook стандартные микрофоны.

Ваше первое слово. После установки PlainTalk на экране возникает «плавающее» окно. Когда вы говорите, в нем отображаются произнесенные слова, если программа их понимает. Если вы спросите: «Который час?», PlainTalk отобразит текущее время.

В меню «Яблоко» (Apple menu) после установки PlainTalk появилась новая папка (Speakable Items). Она содержит подчиненное меню с 48 командами, которые PlainTalk может выполнять, если их произнести вслух. Многие из них чрезвычайно важны: «Закрыть все окна», «Найти файл», «Свернуть все приложения», «Вставить мое имя», «Перезагрузить компьютер» и т. д. Несколько команд не имеют эквивалента на клавиатуре и в меню, например «Выйти из всех приложений», «Выбрать изображение в окне» и др.

Версия PlainTalk для Mac OS 9 по устному указанию пользователя щелкает на кнопках диалоговых окон, таких как «OK», «Отмена», «Выход», «Да» и «Нет». Кроме того, она умеет выполнять команды, характерные для конкретных приложений. Например, пользуясь браузером Web, вы можете говорить: «Назад», «Вперед», «Прокрутить вниз», «Домой» и т. д. Другими словами, PlainTalk — прекрасный вариант для тех, кто предпочитает держать руки на клавиатуре и не любит работать с мышью. Благодаря этому средству можно переключаться между программами, включать и выключать опцию совместного использования файлов (File Sharing), изменять настройки монитора, не обращаясь к традиционным устройствам ввода и экономя время.

Мощь PlainTalk. Панель Speech control позволяет настроить параметры работы PlainTalk. Выберите пункт FeedBack («Обратная связь») из «всплывающего» меню. Назначьте функциональную клавишу, такую как , <~>, , — или любую кнопку на цифровой клавиатуре. Теперь при нажатии на нее ПО начнет воспринимать ваши команды. Можно также определить имя, которое будет означать для ПК, что вы обращаетесь к нему, например Компьютер: «Компьютер, закрой окно»! Но обращение по имени все-таки воспринимается машиной менее точно, нежели нажатие функциональной клавиши.

Три окна: PlainTalk Speech control содержит новые опции, позволяющие, в частности, выбрать клавишу или имя для обращения к ПК; Speakable Commands показывает список команд, которые Mac воспринимает «на слух» (его можно вызывать по устной команде); Feedback

PlainTalk и AppleScript. Версия PlainTalk для Mac OS 9 стала более надежной и мощной, особенно если вы знаете AppleScript. Положив пиктограммы написанных на этом языке сценариев в папку Speakable Items, можно запустить любой из них просто произнеся вслух его имя. Точно так же возможно открывать программы, документы, диски, папки и т.д., ярлыки которых были помещены в этот каталог.

Следующая установка

Если, поэкспериментировав с PlainTalk несколько минут, вы поймете, что такое взаимодействие с компьютером может стать привычным, посетите Web-узел компании MacSpeech. Отсюда можно загрузить бесплатное дополнение к PlainTalk под названием ListenDo. Его первая версия удвоила возможности PlainTalk по управлению ОС и позволила выполнять такие команды, как «Параметры страницы» из меню «Файл» (и любую другую подобную команду). Удивительно, но ListenDo может открывать даже непоименованные меню, например «Яблоко» (Apple menu), меню приложений (applications menu) и др.

PlainTalk на «стероидах». ListenDo отличается понятным и удобным интерфейсом, позволяющим без труда создавать новые команды, которые PlainTalk будет воспринимать «на слух». Среди них — текстовые макросы, заставляющие Mac, к примеру, автоматически распечатывать обратный адрес пользователя. Поскольку PlainTalk понимает ограниченное количество фраз, ListenDo нельзя в полной мере отнести к пишущему под диктовку ПО. Но если вы в переписке по электронной почте часто используете стандартный небольшой текст, ListenDo позволит сэкономить время, запуская по вашей команде макрос, который автоматически вставит его в письмо.

Другие функции PlainTalk дают возможность заменить редко использующиеся кнопки, набирать малоупотребительные слова. А загрузив ПО ScriptPak, представляющее собой наборы дополнительных команд для PlainTalk, вы сможете управлять специальными функциями различных приложений. Например, ScriptPak для AppleWorks распознает такие устные указания, как «найти синоним к слову», «создать электронную таблицу», «применить двойное подчеркивание» и т. д. Производители утверждают, что в конечном итоге создадут подобные дополнения к большинству популярных программ для Macintosh. Комплекты ScriptPak стоят от 10 до 20 долл.

Старый добрый знакомец

Хотя базовые распознающие речь средства для Mac OS существовали издавна, ПО, способное транскрибировать произносимые слова, было редкостью. Первая такая программа для Macintosh называлась PowerSecretary. Она стоила 2,5 тыс. долл. и была весьма неудобной: пользователю приходилось делать большие паузы между словами. Несмотря на такой недостаток, тысячи людей, которые не могли или не хотели печатать вручную, приобрели эту программу.

Сейчас разработкой PowerSecretary занимается британская компания GT Value Europe. Обновленную для Mac OS 9 версию, которая называется Voice-Power Pro, можно купить уже за 140 долл., причем в комплект поставки входит микрофон.

Однако тот, кто работал с пакетом ViaVoice компании IBM, позволяющим диктовать тексты в нормальном темпе, возможно, будет разочарован: Voice-Power Pro по-прежнему требует, чтобы слова произносили с расстановкой. К тому же в этой программе не предусмотрен метод исправления произвольно выбранного слова — «random-access correct» (см. врезку «Два способа правки»). С другой стороны, Voice-Power Pro может работать с любым текстовым редактором для Macintosh. Но самое главное то, что это ПО обеспечивает управление ОС, т. е. вы можете оперировать меню, диалоговыми окнами, пиктограммами, используя встроенный язык AppleScript. С этой точки зрения Voice-Power Pro любой версии является программой, предназначенной исключительно для Macintosh, и сочетает в себе функции управляющих ОС и транскрибирующих текст программных средств.

Диктуем тексты

Главнейшей новостью, касающейся распознавания речи на Macintosh, является выход в свет программы ViaVoice Millennium Edition компании IBM. Это ПО позволяет вводить в Mac тексты, произнося их с нормальной скоростью. Но ViaVoice — отнюдь не идеальное решение проблемы. Его самый большой недостаток — необходимость использовать собственное диалоговое окно программы, подобное окну текстового редактора SimpleText. Правда, надиктованный текст можно по устной команде скопировать в AppleWorks, Microsoft Word 98, Outlook Express и Netscape Messenger. Но большинство пользователей Macintosh хотят транскрибировать произносимые слова в любом приложении, даже если они не смогут исправлять допущенные программой ошибки.

Надежды на будущее. К счастью, компания IBM поддерживает связь с пользователями ее продукции; в феврале она даже заплатила по 100 долл. каждому, кто принял участие в развернувшемся на ее Web-узле обсуждении плана исправления ViaVoice. И можно с уверенностью утверждать, что следующая версия программы позволит копировать надиктованный текст в большее число приложений для Mac, нежели версия 1.0. Уже сейчас литераторы, медики, юристы, студенты и многие другие успешно используют ViaVoice вместо клавиатуры; усовершенствованная версия, очевидно, станет еще популярнее.

Лучшее еще впереди. Для пользователей Macintosh последнее достижение в области распознавания речи, программа Dragon NaturallySpeaking, пока остается вне досягаемости.

Версия этого ПО для Windows работает чрезвычайно быстро и безошибочно. Она управляет ОС, например перемещает курсор мыши по экрану. Надиктованные в естественном темпе тексты могут быть записаны программой практически в любом Windows-приложении. Более того, NaturallySpeaking умеет транскрибировать речь с цифровых записывающих устройств. Подключите устройство к ПК, нажмите кнопку Play и наблюдайте, как NaturallySpeaking печатает ваши слова. В отличие от других средств распознавания речи для Windows, таких как ViaVoice корпорации IBM и FreeSpeech 2000 фирмы Philips, этот продукт хорошо интегрирован с Microsoft Word и Corel WordPerfect, так как поставляется с модулем, позволяющим редактировать произвольно выбранные слова в этих текстовых процессорах.

Непостоянство Dragon. В мае 1999 г. компания Dragon Systems объявила о своих планах выпустить в 2000 г. версию NaturallySpeaking для Macintosh. Но сейчас представители этой компании говорят, что будут ждать выхода в свет Mac OS X. Если подобная стратегия в разработке продуктов для Mac сохранится в дальнейшем, то Dragon Systems рискует потерять огромную часть рынка, что и подтверждает стремительный рост объемов продаж ViaVoice.

MacSpeech приходит на помощь? Если надежды, возлагаемые пользователями Macintosh на Dragon Systems, не оправдались, то сообщения других фирм внушают оптимизм. Компания MacSpeech заявила, что практически закончила объединение технологии Philips, позволяющей ПК воспринимать надиктованные тексты, со своей программой ListenDo. В результате получено ПО под названием iListen, которое сочетает в себе функции обоих продуктов. Компания утверждает, что iListen работает с любой программой для Mac, и надеется представить ее на июльской выставке Macworld Expo.

Правда, iListen не умеет вносить правки в произвольно выбранные слова и в случае ошибки переписывает весь текст заново, начиная с того места, где она была допущена («rapid-backspacing correction»). Однако компания MacSpeech предусмотрела возможность заменить метод исправления ошибок более совершенным. И, как она утверждает, некоторые производители ПО для распознавания речи уже готовы к сотрудничеству.

Итог. Если дела пойдут в соответствии с планом, то этот год должен стать знаменательным для всех пользователей Macintosh, мечтающих избавиться от клавиатуры и мыши и управлять компьютером, просто разговаривая с ним. Они смогут диктовать тексты в любой программе для Macintosh, исправлять произвольно выбранные неправильные слова и с помощью отданных устно команд работать с меню и диалоговыми окнами.

ОБ АВТОРЕ

Дэвид Пог пишет статьи исключительно с помощью транскрибирующего речь ПО, www.davidpoge.com.


* Близкие по звучанию английские слова. «Hyphenate» — американец иностранного происхождения, «minus eight» — минус восемь. — Прим. ред.


Как это понимать?

Пишущее под диктовку ПО сейчас работает очень точно, но все еще имеет недостатки. На протяжении нескольких лет я собирал смешные ошибки, которые допустила программа NaturallySpeaking для Windows. Глядя на эти нелепости, поражаешься, как глупы и одновременно изобретательны подобные приложения.

ЧТО Я СКАЗАЛЧТО БЫЛО ЗАПИСАНО
an enormous number of variation — бесконечное число вариацийan enormous number of very Asians — бесконечное число очень азиатов
breakable — ломкийbreak a bull — ломать буйвола
a procedure — процедураupper seizure — верхний захват
and then stick it in the mail — и затем вставь его в письмоand dense thicket in the mail — и густая чаща в письме
movie clips — клипы фильмаmove eclipse — переместить затмение
I might add — я мог бы добавитьI my dad — я мой папочка
a nameless feeling — невыразимое ощущениеa aimless feeling — бесцельное ощущение
inscrutable — непостижимыйin screw double — в винте дублер
oxymoron — оксюморонax a moron — спросить идиота

Анатомия исправлений

Если ваша программа, транскрибирующая речь, позволяет, как ПО ViaVoice компании IBM, вносить правку в произвольно выбранные слова, то процесс ее работы выглядит следующим образом:

1. Вы заметили ошибку и сказали программе: «Исправить giving you». ViaVoice маркирует эти слова.


2. ViaVoice предлагает варианты замены. Если одно из предложений вас устраивает, дайте команду: «Выбрать вариант 3» (или тот, который хотите), чтобы внести правку, и продолжайте диктовать.


3. Если вы не уверены в том, что именно произнесли, щелкните на кнопке Play (треугольнике), чтобы воспроизвести сказанное. Вы можете напечатать то слово, которое хотели, или громко произнести его.


4. Закончив редактировать, вы можете сказать: «Перенести в AppleWorks», и текст появится в соответствующей программе.

Два способа правки

Любая программа, преобразующая речь в печатный текст, может делать ошибки. Если вы продолжаете диктовать, возникает большой вопрос: можно ли будет внести правку в произвольном месте страницы или придется переделывать все, начиная с неверного слова?

Эта проблема связана и со спецификой функционирования таких программ, и с их способностью взаимодействовать с другим ПО. Например, при внесении правки в Voice-Power Pro программа возвращается к ошибке (удаляя текст, набранный после нее), заменяет неправильное слово, а затем печатает заново весь текст до того места, где вы остановились. Поскольку клавиша удаления символов действует во всех программах, Voice-Power Pro (как и iListen компании MacSpeech) работает с любым приложением. Но за это приходится «платить»: в тот момент, когда вы нажимаете на кнопку мыши, клавиши перемещения курсора или переключаетесь между окнами, программа «теряет» курсор и не может вносить правку.

Лучший путь — исправление произвольно выбранного фрагмента текста, когда есть возможность выделять, форматировать и редактировать неверное выражение (даже если оно было набрано несколькими абзацами ранее), просто отдав устную команду компьютеру. Такая программа маркирует неправильное слово и предлагает варианты замены. Именно так работает ПО ViaVoice компании IBM.

На программном уровне, однако, трудно обеспечить этот способ правки, если только не написать для этой цели специальный текстовый процессор. Именно потому ViaVoice может транскрибировать только в собственном редакторе. ПО NaturallySpeaking для Windows может выполнять правку произвольно выбранного слова в Microsoft Word и WordPerfect, благодаря специальной работе по программированию при его создании; в большинстве других случаев NaturallySpeaking использует первый из описанных методов редактирования. Таким образом, даже Windows не обеспечивает исправление произвольно выбранного слова во всех приложениях.


ViaVoice Millennium Edition для Macintosh

Версия 1.0 записывает тексты под диктовку практически без ошибок.

Компьютеры Apple вновь в моде, и большая часть производителей ПО выпускает для 25 млн пользователей Macintosh версии своих лучших продуктов. Программа ViaVoice Millennium Edition корпорации IBM для Mac, преобразующая произносимые в естественном темпе слова в печатный текст, — прекрасный тому пример. ViaVoice — очень выгодное приобретение: в комплект поставки за 90 долл. входит головной шумозащищенный микрофон фирмы Andrea Electronics, цена которого составляет 40 долл. Он снабжен удобными наушниками, позволяющими слушать, как ПК читает записанный текст, не беспокоя окружающих. Устройства выполнены в пяти «фруктовых» цветах Mac.

Плохие и хорошие новости

Огромный недостаток пакета заключается в том, что продиктованные слова записываются только в собственном процессоре — SpeakPad. Из его окна по устной команде программа копирует текст в AppleWorks, Microsoft Word 98, Outlook Express или Netscape Messenger. Это не так уж и плохо, однако тем, кто диктовал непосредственно в Word, используя, например, NaturallySpeaking для Windows, несомненно, захочется иметь такую же возможность и в Macintosh.

ПО максимально учитывает специфику платформы. Например, мастер установки не только просит подключить кабель наушников к соответствующему разъему, но и показывает фотографию задней панели именно вашей модели ПК.

После установки, чтобы запомнить голос пользователя, ViaVoice просит прочесть вслух с экрана несколько текстов. На 300-МГц PowerMac G3 эта процедура занимает около 15 мин. Затем ПО в течение 30 мин анализирует записанные звуковые файлы.

Теперь программа готова к работе. Если щелкнуть по пиктограмме ViaVoice, то запустится текстовый редактор SpeakPad. Надев наушники, вы начинаете говорить — и абсолютно ничего не происходит. Но, как только сделаете паузу, произнесенный текст возникнет на экране.

Работа

Первоначально ViaVoice транскрибирует с 95%-ной точностью, т.е. пользователь вынужден исправлять 1 слово из 20. Затем, по мере работы, точность повышается. Дополнительная возможность программы (которую рекомендуется использовать) позволяет запоминать написанное, таким образом ViaVoice может узнавать неточные слова и в дальнейшем записывать их более корректно.

Вносить правку можно исключительно с помощью устных команд. К сожалению, после исправления слова его место остается выделенным, и для продолжения работы нужно щелкнуть на конце документа. IBM выпустила бесплатную «заплатку», устраняющую этот недочет. Загрузить дополнение можно по адресу: http://www-4.ibm.com/software/speech/support.

Есть и другие проблемы. Так, чтобы начать печатать текст, необходимо произнести громоздкую команду: «Capitalize it» («Печатай его»). Заметим, NaturallySpeaking достаточно сказать: «Cap». Исправить ситуацию можно, воспользовавшись командой Edit Macros («Изменить макрос») из меню Dictation («Диктовка»).

Скорость мысли

Работает ли ViaVoice быстрее, чем оператор-наборщик? Конечно, данное ПО уступает в скорости лучшим аналогичным продуктам для Windows и еле «ползет» на 233-МГц Macintosh (минимальное требование к системе). На iMac DV напечатанный текст появляется в окне примерно через секунду после того, как вы его произносите.

Но большинство операторов, применяющих «слепой» метод набора, в первый день достигают той же, что и ViaVoice, быстроты, используя клавиатуру. Однако когда вы и программа получше «узнаете» друг друга, скорость повышается. И в конце концов помехой становится не недостаточное быстродействие компьютера, а медлительность человеческой мысли.

Советы покупателям

Если вы относитесь к тем людям, которые не могут или не любят использовать клавиатуру, ViaVoice послужит альтернативным средством ввода текстов в Macintosh. Тот факт, что ViaVoice ограничивает возможности печати набором в собственном текстовом процессоре, объясняется недочетами первой версии продукта. Но IBM избрала верную стратегию, максимально адаптируя его для Macintosh. Программа поставляется с 30-дневной гарантией. Каждому, кто ежедневно набирает на ПК тексты более длинные, нежели ссылки Internet, следует изучить эту замечательную программу, если только не ждать выхода в свет более мощного, чем ViaVoice, ПО для распознавания речи на Macintosh (включая его собственные обновления, которые должны появиться этим летом).

ViaVoice Millennium Edition for Macintosh

Достоинства: точность и быстрота работы, низкая цена.

Недостатки: транскрибирует только в окне собственного текстового процессора.

Производитель: IBM

Цена: 90 долл.