Автоматическое распознавание речи - неплохая вещь. Но погодите выбрасывать свою мышь.
Тридцать лет назад, когда нам нужно было с кем-нибудь связаться, мы начинали накручивать диск телефонного аппарата, висящего на стене, или настукивали на машинке письмо, которое потом неделю шло с одного конца страны на другой.
Сотовые телефоны и электронная почта изменили способы коммуникации. Пишущие машинки ушли вслед за чудо-печками и восьмидорожечными ленточными магнитофонами. Но мы, как и прежде, набираем письма на клавиатуре, пусть и подсоединенной к ультрасовременному мощному компьютеру. Не настало ли время предоставить голосу, а не пальцам вести разговоры?
Новое поколение систем распознавания речи способно воплотить эту идею в жизнь. Последние их версии позволяют диктовать компьютеру слитно, не делая паузу после каждого слова, запускать программы и давать команды, одновременно подпиливая ногти. К тому же такие программы дешевы: продукты, рассматриваемые в этой статье, стоят от 39 до 160 долл. А вот и маленькое чудо: Corel и Lotus встроили распознавание речи в свои офисные пакеты (о распознавании речи в WordPerfect Suite 8 см. врезку "Распознавание речи в интегрированных пакетах" в электронной версии этой статьи).
Автоматическое распознавание речи - настоящий подарок судьбы для тех, кто физически не способен работать с клавиатурой или мышью. Но достаточно ли оно совершенно для того, чтобы основная масса пользователей ПК решилась сменить мышь на микрофон? Редакция PC World предложила мне испытать четыре лидирующих продукта - Dragon NaturallySpeaking Preferred, IBM ViaVoice 98 Executive Edition, Lernout & Hauspie Voice Xpress Professional и Philips FreeSpeech 98 - и рассказать о своих впечатлениях.
Мое заключение: автоматическое распознавание речи удобно для диктовки коротких записок и электронных писем, причем здесь лучше всех оказалась программа NaturallySpeaking компании Dragon. Но эта технология плохо подходит для редактирования и форматирования надиктованного текста. Она вряд ли пригодится мастерам таблиц и графикам-виртуозам в нашем компьютерном мире, где главную роль играет мышь.
Великие диктаторы?
Реклама систем распознавания речи часто рисует образ пользователя, который удобно расположился перед компьютером, задрав ноги, и не прикасается ни к мыши, ни к клавиатуре. Со мной все оказалось существенно иначе.
Я установил все пакеты на компьютере Pentium II-333 с оперативной памятью 64 Мбайт, быстрым диском Ultra-SCSI и звуковой платой Sound Blaster AWE64 Gold. С каждым пакетом я провел эксперименты по диктовке текста в основном экране (обычно варианте Windows WordPad), а также в среде текстового процессора, электронной таблицы и почтовой программы. Среди тестовых документов было деловое письмо, содержавшее много выделений жирным шрифтом, центрированных абзацев и необычных слов, а также URL и таблицу, были простые электронные письма и любимые мною стихотворения Роберта Фроста.
В целом допускающей наименьшее число ошибок и одновременно самой простой в использовании оказалась программа Dragon NaturallySpeaking Preferred, хотя и с ней мне было достаточно неудобно работать в электронных таблицах и управлять перемещениями по экрану. Однако у каждого из рассмотренных пакетов есть и сильные, и слабые стороны. Вот как они соотносятся по основным параметрам.
Первичное обучение. В описаниях всех пакетов утверждается, что их достаточно установить, зачитать вслух несколько предложений - и можно приступать к диктовке хорошо поставленным голосом. Допускаю, что это так, но результаты будут намного лучше, если потратить от 10 до 50 мин на обучение программы особенностям своего голоса. Соответствующая процедура состоит в зачитывании серии тестовых фрагментов; она утомительна, но выполняется всего один раз. В целом наименее обременительным оказалось обучение Dragon.
Но обучение по тестам - это только начало. Далее я должен был преподать системам распознавания слова, отсутствовавшие в их встроенном словаре (объемом от 30 до 64 тыс. слов). Одним из таких слов является моя собственная фамилия - Мястковски, но в своих статьях на компьютерные темы я постоянно использую сотни других. Создавать дополнительный словарь потребовалось во всех рассмотренных мною пакетах, но Dragon NaturallySpeaking лучше всех угадывал, как пишется новое или необычное слово. В общем и целом, чем больше вы обучаете программу и работаете с ней, тем точнее она вас понимает.
Поддержка работы нескольких пользователей. Все продукты, кроме Philips FreeSpeech 98, позволяют создать несколько пользовательских профилей, чтобы сделать возможной работу нескольких разных людей на одном ПК. Группа редакторов PC World (среди которых были и люди, говорившие с немецким и ирландским акцентом, и обладатели характерного нью-йоркского выговора) протестировала пакеты и пришла к выводу, что качество распознавания остается на неплохом уровне независимо от того, кто говорит.
Диктовка. Все четыре пакета рассчитаны в первую очередь на то, чтобы обеспечить ввод в документ никак не оформленного потока текста. С этой задачей лучше всех справляется Dragon. Он единственный из всех достиг заявленной безошибочности распознавания - 95%. Но не забывайте: безошибочность 95% означает, что каждое двадцатое слово интерпретируется неправильно, а исправление требует времени. У IBM ViaVoice 98, Philips FreeSpeech 98 и L&H Voice Xpress Pro точность распознавания была около 90%.
Редактирование и форматирование. Диктовать сплошной текст - это одно, а устно вносить исправления - совсем другое. Сколько-нибудь удобные команды редактирования, подаваемые голосом, есть только в IBM ViaVoice, неплохими возможностями форматирования могут похвастаться IBM и Dragon. Но все же мудрее будет воспользоваться для данных целей клавиатурой и мышью.
Поддержка других программ. Все четыре пакета обеспечивают диктовку непосредственно в окне любой программы, работающей с текстами, в частности Microsoft Word, Excel и таких популярных почтовых клиентов, как Outlook Express и Netscape Messenger. Правда, на компьютерах относительно старых моделей обработка произносимых вами слов может происходить с задержкой.
Команды и управление. Вы можете не только диктовать программам, но и давать им инструкции - открыть такой-то файл, напечатать такую-то страницу, - а кроме того, управлять перемещениями по Рабочему столу. Соответствующие функции работали во всех четырех программах, но не всегда. Некоторые команды, например click File (щелкнуть по пункту File) или click Save (щелкнуть по пункту Save) в Word, приходилось повторять по нескольку раз, прежде чем компьютер соглашался меня послушаться, - особенно при работе с Philips FreeSpeech 98. Управление Рабочим столом лучше всего получалось в IBM ViaVoice 98.
Звуковая аппаратура. Все программы предполагают использование определенных звуковых плат - включая, впрочем, такие популярные марки, как Sound Blaster. Поэтому перед тем, как сделать покупку, ознакомьтесь на Web-узле фирмы со списком сертифицированных плат. К трем из четырех пакетов (исключением является Philips) прилагается стандартный микрофон с наушниками; наиболее удобным мне показался тот, которым комплектовался Dragon NaturallySpeaking. Но чтобы добиться лучших результатов, видимо, имеет смысл купить более высококачественный микрофон с шумоподавлением. Я испытал восемь разных микрофонов и в конце концов остановился на Andrea ANC-500 (подробнее см. врезку "Микрофоны: удобство решает все").
Не вполне естественная речь
Во всех системах распознавания основной фактор, замедляющий работу, связан с тем, что диктовка хуже приспособлена к вводу письменного текста, чем набор на клавиатуре. Например, приходится вставлять в речь знаки препинания и инструкции по форматированию - меня это часто отвлекало, так что я терял нить рассуждения. Поработав с речевыми пакетами несколько недель подряд, я понял, что с меня хватит, когда, посмотрев на своего пса, сказал ему: "Пеппер, ко мне, сидеть, восклицательный знак!"
Были и другие проблемы - от дикого искажения самых простых слов до появления произвольных символов в результате того, что я слишком громко дышал. Кроме того, необходимо заботиться о своем голосе (см. врезку "Берегите голосовые связки"). И если вы не страдаете туннельным синдромом запястья или другим аналогичным дефектом, то с клавиатуры введете текст быстрее и с меньшим числом ошибок. Однако в отдаленной перспективе переход на речевое управление компьютером, возможно, неизбежен. Роб Эндерле, директор по технологиям настольных и мобильных компьютеров в объединении Giga Information Group, предсказывает, что в скором времени распознавание речи получит повсеместное распространение. "Через пять лет, - считает он, - вы будете оглядываться назад и удивляться, зачем нужно было применять для ввода клавиатуру".
Dragon NaturallySpeaking Preferred
Достоинства: самая высокая безошибочность распознавания, простота использования.
Недостатки: неудобный ввод чисел, посредственное управление экраном.
Единственная программа, приблизившаяся к тому, чтобы выполнить рекламные обещания, - 160-долларовая Dragon NaturallySpeaking Preferred - хорошо вводила текст и позволяла легко переключаться между диктовкой, правкой и форматированием.
Пакет компании Dragon намного превзошел остальные в распознавании текста делового письма, удивительно точно записав такие сложные имена собственные, как O'Keeffe, Bernardo и Peterborough. В целом он очень близко подошел к достижению заявленной безошибочности распознавания - 95%.
Когда Dragon все-таки допускает ошибку, вы можете войти в режим правки, просто сказав "delete that" (удалить) или "scratch that" (вычеркнуть), а затем повторить слово или словосочетание правильно. Форматировать текст также очень просто: вы выделяете текст и произносите слова типа "set font Arial 24" (установить шрифт Arial кегля 24), "center that" (центрировать) или "bold that" (выделить жирным шрифтом). Но вот набор команд перемещения и правки в Dragon, как и в остальных трех пакетах, сложный. Результат диктовки было намного быстрее и проще поправить с помощью мыши и клавиатуры.
С Dragon можно работать двумя способами: во-первых, пакет позволяет диктовать в своем текстовом окне (получившийся документ затем вставляется в нужную программу), во-вторых, он содержит встроенные утилиты, обеспечивающие ввод непосредственно в окне текстового процессора, почтовой программы, электронной таблицы. Что проще, зависит от ваших личных предпочтений и от используемой вами программы. Мне, например, совсем не трудно было перенести надиктованный текст в окно почтовой программы, а вот в электронной таблице оказалось удобнее диктовать числа прямо в ячейки.
Модуль NaturalWord для диктовки в окне Microsoft Word 97 (с более ранними версиями он не работает) очень похож на основной экран речевого ввода Dragon. Он предоставляет также доступ к командам меню Word, но мне пришлось сделать несколько попыток, прежде чем я добился от Word повиновения, да и после этого быстрее было действовать с помощью клавиатуры и мыши. Компания предупреждает, что на компьютерах с относительно медленным процессором распознавание может происходить с паузами, но на моем Pentium II-333 этого ни разу не случилось.
Утилита NaturalText обеспечивает диктовку в среде практически любой программы для Windows 95/98. После ее установки в системном лотке на Панели задач появляются значки текста и микрофона. Чтобы начать работать с NaturalText, достаточно щелкнуть по значку микрофона - и можно говорить.
Я проверял эту утилиту с Internet Explorer Mail 3.02 и Excel 97. На мой взгляд, она лучше всего подходит для диктовки простых неформальных записок, типичных для электронной почты. Создать таблицу Excel было сложнее в большой степени вследствие способа, которым Dragon работает с числами: например, чтобы получить запись 723,000, требуется произнести "seven-two-three-comma-zero-zero- zero" (семь-два-три-запятая-ноль-ноль-ноль). Не самое естественное высказывание.
Для перемещения по экрану Dragon разделяет его на перенумерованные сектора; чтобы переместить курсор в нужный сектор, вы называете его номер. Раз за разом программа предлагает все более мелкое дробление, и в конце концов курсор оказывается в точности там, где требуется.
А вот работать с меню, наоборот, просто. Словесным эквивалентом щелчка кнопкой мыши служит ключевое слово click (щелкнуть). Оно и действует точно так же.
Хотя пакет Dragon и уступает некоторым из конкурентов в том, что касается перемещения по экрану, правки и форматирования, он превосходит всех в главном - способности с первого раза правильно записывать произнесенные слова. К тому времени, как вы будете читать эти строки, должна выйти новая версия NaturallySpeaking, в которой, как сообщили нам в компании, будут усовершенствованы перемещение по экрану и ввод чисел.
IBM ViaVoice 98 Executive Edition
Достоинства: хорошее распознавание простых слов, усовершенствованные перемещение по экрану и дизайн.
Недостатки: низкое качество распознавания имен собственных и сокращенных слов, медленная работа в среде некоторых программ.
Если вам нужно управлять перемещением по Рабочему столу не с помощью мыши, а с помощью голоса, то 149-долларовый пакет ViaVoice 98 Executive Edition корпорации IBM будет хорошим выбором, поскольку в нем эта функция реализована очень удачно. Но при том, что новая версия значительно совершеннее предыдущих, она все-таки не может сравниться с Dragon в безошибочности распознавания.
Пакет хорошо справился с чисто текстовыми секциями тестового письма, но споткнулся на некоторых именах собственных и сокращениях. Например, фамилию Bernardo он записал как Bernad O, название городка Westwood - как West would it, а Peterborough - как Peter burrow. Это существенно снизило итоговый процент ошибок распознавания. По моим впечатлениям, чем более обширный контекст я обеспечивал для слова, тем с большей вероятностью ViaVoice его правильно распознавал.
Как и Dragon, корпорация IBM обеспечивает простое переключение между режимами диктовки, правки, диктовки по буквам и ввода команд. Достаточно сказать, что вы собираетесь сейчас делать, и пакет, как правило, поймет вас верно. Эпизодически я сталкивался с незначительными проблемами при попытке заставить ViaVoice 98 воспринять команду перемещения, такую как move up four lines - подняться на четыре строки. Лучше всего это удавалось мне, если я давал команды отрывисто и монотонно; при этом порой возникало неприятное ощущение, что не я обучаю программу, а она меня.
Можно использовать ViaVoice непосредственно внутри таких программ, как Word, Excel и Internet Explorer Mail. Диктовка в Word происходит почти без задержек, но в остальных программах приходится чуть-чуть подождать, пока продиктованный текст будет обработан. Зато в ViaVoice 98 более естественная работа с числами, чем в Dragon: чтобы записать в ячейку Excel сумму 23 432 долл., нужно сказать "twenty-three thousand four hundred thirty-two dollars" (двадцать три тысячи четыреста тридцать два доллара).
Еще одно достоинство ViaVoice 98 - замечательно организованное управление Рабочим столом Windows. Чтобы запустить Excel, достаточно сказать "open Excel", чтобы развернуть пункт меню, достаточно его назвать. Можно выбирать кнопки, произнося написанные на них слова (такие, как OK или Cancel). На случай, если программа не будет распознавать команды, в ней предусмотрено обучение, но мне редко приходилось прибегать к этой тактике.
Так что, если вам нужно минимизировать объем ежедневной работы на клавиатуре, пакет ViaVoice 98 будет хорошим выбором. Однако ошибок распознавания в нем все же слишком много.
L&H Voice Xpress Professional
Достоинства: простое и быстрое исправление неправильно воспринятых слов, великолепное распознавание чисел.
Недостатки: придирчивость к произношению команд, неравномерное качество распознавания.
На первый взгляд Voice Xpress Professional компании Lernout & Hauspie очень похож на NaturallySpeaking Preferred. Но, хотя у этого 150-долларового пакета и есть определенные преимущества - хорошее распознавание чисел, тесная интеграция с компонентами Office 97, - он уступает программе Dragon в качестве распознавания слов и команд.
Процедура обучения в Voice Xpress Pro - самая долгая из всех. У меня она заняла 50 мин, за которые я прочел 230 экранов с текстом - списки команд, упражнения в диктовке по буквам и отрывки из книги об Антарктике с такими труднопроизносимыми пассажами, как vulpine Russian glaciologist (хитрый русский гляциолог).
С распознаванием делового письма программа в основном справилась, но время от времени с ее слухом что-то случалось. Westwood Park превратился в west with a park, June twenty-second - в June twenty seconds, quarter - в water, а из моего имени - Stan Miastkowski - получилось загадочное выражение to stand and guest cascade. Реальной проблемой были также артикли и короткие служебные слова (такие как a, the, that). Дефекты распознавания, возможно, связаны с небольшим объемом основного словаря - 30 тыс. слов, что примерно вдвое меньше, чем в других пакетах.
С распознаванием некоторых команд перемещения и управления, например go to the end of the document (перейти в конец документа), в Voice Xpress Pro также возникли сложности. Мне удалось уменьшить число ошибок, начав говорить медленно и неестественно отчетливо. Еще лучший результат дало слияние слов - нужно было произнести нечто вроде "downtwoparagraphs" (надваабзацавниз), сделав паузу перед командой и после нее.
Что касается положительных сторон Voice Xpress Pro, то этот пакет обладает лучшей из всех рассмотренных системой исправления ошибок. Вы говорите "correct that" (исправить), и на экране появляется список вариантов. Если подходящий вариант есть в списке, нужно произнести "take" (принять) и номер правильного слова, после чего оно вставляется в документ. Другое достоинство пакета - хорошая интеграция с компонентами Microsoft Office 97: работа с ними происходит без каких бы то ни было задержек. Кроме того, Voice Xpress Pro блистательно вводит числа: я диктовал их в Excel совершенно естественно. И все же он существенно уступает Dragon по качеству распознавания и IBM Via Voice по простоте управления.
Philips FreeSpeech 98
Достоинства: наличие бесплатной пробной версии, дешевизна.
Недостатки: посредственное качество распознавания при диктовке, некоторые команды не распознаются, отсутствие микрофона.
Из четырех рассмотренных нами программ Philips FreeSpeech 98 имеет самое точное название: его можно испробовать совершенно бесплатно (одно из значений английского free - "бесплатный". - Прим. перев.), просто получив с сервера www.freespeech98. com установочный файл объемом в 30 Мбайт. Пользование пакетом после испытательного периода, который длится семь дней, стоит 39 долл.; но не исключено, что, ознакомившись с пакетом, вы откажетесь от мысли купить его.
Несмотря на очень низкую цену, пакет FreeSpeech 98 функционально полон. Он поддерживает и стандартное окно диктовки типа WordPad, и возможность диктовать в любой программе для Windows, где есть ввод текста, и управление перемещениями по меню и окнам на Рабочем столе. В отличие от других пакетов, FreeSpeech требует ручного переключения между диктовкой, управлением, диктовкой по буквам и режимом "сна". Предполагается, что соответствующие команды можно подавать голосом, но у меня они срабатывали так редко, что я предпочел мышь.
Стартовое качество распознавания FreeSpeech 98 производило не слишком благоприятное впечатление. В тестовом деловом письме он прекрасно распознавал базовую лексику, но любое необычное слово выбивало его из колеи. Фамилия O'Keeffe была записана как both keys, а Bernardo - как burn our goal. Числа, как и в Dragon NaturallySpeaking, опознаются только если диктовать их по одной цифре.
Команды перемещения и форматирования FreeSpeech 98 очень похожи на имеющиеся в других пакетах (в действительности ряд команд просто совпадает). Но FreeSpeech часто с поразительным упрямством игнорировал мои указания выделить текст или переместить курсор. Это так раздражало, что я быстро вернулся к управлению с помощью клавиатуры и мыши.
Если вас все еще подкупает низкая цена пакета, вспомните, что он не комплектуется микрофоном. Конечно, FreeSpeech будет работать с любым микрофоном для ПК, но лучшие результаты вы получите, если будете пользоваться микрофоном, который стоит как минимум 30 долл. Так что вряд ли этот продукт стоит приобретать. n
Об авторах
Стэн Мястковски - редактор и автор PC World. Гарри Маккрэкен - старший обозреватель, Аоифе Макэвой - внештатный редактор PC World. В работе над статьей приняли участие также исполнительный редактор PC World Дэниел Тайнен, директор объединенного тестового центра Ульрике Дильманн и независимый автор из Сан-Франциско Сьюзен Фрай
А что у нас?
При том что отечественные разработчики весьма сильны в распознавании символов (продукты компаний ABBYY и Cognitive Technologies известны всему миру), можно было бы ожидать, что и в распознавании звучащей речи они преуспеют не меньше. Однако на настоящий момент единственным пакетом для ПК, позволяющим диктовать по-русски, является "Комбат" московской фирмы "Вайт Груп" (www.orc.ru/~kombat) - русифицированная версия программы Dragon Dictate (о первом варианте пакета, называвшемся "Горыныч", см. "Мир ПК", № 9/97, с. 181). "Комбат" обеспечивает ввод русских текстов, а также управление Рабочим столом русских версий Windows 3.x, 95/98 и NT. Объем его словаря - 26 тыс. словоформ с возможностью расширения до 30 тыс., т. е. довольно скромный (не забудем, что русское словоизменение значительно богаче английского), зато цена - всего 15 долл. Как сообщили нам разработчики, она была снижена в преддверии выпуска следующей версии, уже на основе Dragon NaturallySpeaking.
Создание собственной системы диктовки в нынешних российских условиях не окупится - считают в петербургском Центре речевых технологий (www.stc.rus.net), - но у распознавания речи есть масса других полезных применений. Там активно занимаются системами речевого управления (причем не обязательно компьютером - разработанный Центром пульт "Труффальдино" предназначен для речевого управления бытовой электроникой типа видеомагнитофона), распознаванием голоса, компьютерной обработкой записей. Распознавание голоса находит применение в криминалистике, а также для защиты компьютера (и не только компьютера) "голосовым паролем". А разработанный Центром специальный текстовый редактор "Цезарь" пригодится всем, кому часто приходится расшифровывать некачественные записи: он позволяет не только любое число раз "прокручивать" тот или иной фрагмент оцифрованной записи речи, но и прослушивать его в замедленном темпе без искажения тембра, а также находить требуемое место записи по введенному тексту.
Московский Клуб голосовых технологий (web.science.park.ru/pcv) сосредоточил свои усилия на синтезе речи. В сотрудничестве с лингвистами из Лаборатории экспериментальной фонетики Филологического факультета МГУ он выпустил диск "Говорящая мышь" (издателем выступил Международный центр фантастики). "Мышь" позиционируется как развлекательный продукт (и реклама разработанного Клубом программистского инструментария для синтеза), но вполне может пригодиться людям с ослабленным зрением, которым трудно читать надписи на экране.
Но самое интересное происходит, пожалуй, в "ИстраСофт" (www.istrasoft.ru) - компании, известной в первую очередь пакетом для обучения английскому языку с визуальным контролем произношения "Профессор Хиггинс" (см. "Мир ПК", № 9/98, с. 48). Развивая "Хиггинса", сотрудники "ИстраСофт" совершили технологический прорыв, значение которого трудно переоценить: они научились членить слова на элементарные сегменты, соответствующие звукам речи, независимо от диктора и от языка! (Существующие системы распознавания речи не производят сегментации: наименьшей единицей для них является слово.) Демонстрация новой технологии выглядит пока не очень эффектно: это всего-навсего упаковка и распаковка звуковых файлов с записью речи - правда, с необычайно высокими коэффициентами сжатия. Если файл был сжат сильно, то после распаковки в нем появляются отчетливо слышные границы между сегментами; использованию программы по прямому назначению они, конечно, мешают, но специалисту позволяют убедиться в правильности членения.
Чтобы создать основанную на новой технологии систему распознавания, необходимо "привязать" сегментацию к конкретному языку с помощью двух словарей - "звукового", сопоставляющего реальным звукам речи определенные фонемы, т. е. смыслоразличительные единицы (на слух мы, как правило, воспринимаем именно фонемы родного языка, не замечая различий между их вариантами, обусловленными, например, позицией), и "фонетико-орфографического", который будет переводить фонемную запись в письменную. Принципиально ничего сложного здесь нет: это вполне рутинная, умеренно трудоемкая техническая задача. Тем не менее на ее решение нужны рабочие руки и средства, которых у "ИстраСофт" не так много. Что ж, наберемся терпения и будем надеяться на лучшее.
М. СухановаМикрофоны: удобство решает все
В продаже имеется множество моделей микрофонов и комплектов из микрофона и наушников для ПК, и, как я убедился, с высококачественными микрофонами диктовка идет лучше - им меньше мешают посторонние шумы, дыхание или прокашливание. Естественно, степень удобства той или иной модели зависит также от формы головы и прически пользователя, так что выбор микрофона с наушниками - дело личного вкуса каждого.
Я протестировал шесть микрофонов с наушниками фирмы Andrea, ведущего поставщика микрофонов для систем распознавания речи (цена их варьировала от 30 до 65 долл.), а также пару высококачественных комплектов фирмы VXI (соответственно 76 и 102 долл.).
Я не слишком удивился, убедившись, что вы получаете ровно то, за что платите. Более дешевые модели, такие как 30-долларовый ANC-80 фирмы Andrea, довольно хлипкие и все время куда-то съезжают: стоит пошевелить головой, как наушники тоже сдвигаются, а иногда и падают. Вдобавок при диктовке возникало больше ошибок, поскольку способности микрофона к шумоподавлению весьма посредственные.
В сравнении с этой моделью 55-долларовый ANC-500 той же Andrea обладал исключительными способностями к шумоподавлению. Микрофоны фирмы VXI намного превосходили ANC-80 по удобству, но все-таки не настолько, насколько ANC-500 по качеству подавления шумов.
Компания Philips продает по цене 79 долл. устройство SpeechMike, предназначенное специально для работы с пакетом FreeSpeech 98 (который собственным микрофоном не комплектуется). SpeechMike напоминает по виду мышь и содержит микрофон, динамик и трекбол. При диктовке его надо подносить ко рту, как переносную рацию, что при длительной работе утомляет. Поэтому для долгой диктовки SpeechMike не очень подходит.
Тем, кто собирается проводить много времени за компьютерной диктовкой, следует раздобыть высококачественный микрофон с наушниками. Вы непременно оцените его по достоинству, если вам случится диктовать, к примеру, длинный отчет. Благодаря активному шумоподавлению программа будет делать меньше ошибок и, соответственно, меньше вас раздражать. Поверьте, что при большом объеме диктовки затраты на хороший микрофон окупаются.
И кто знает, может быть, вы даже перестанете повышать голос на свой ПК.
Стэн МястковскиБерегите голосовые связки
Работа на компьютере "без рук" может показаться безопасной и удобной, но если не принять необходимых мер предосторожности, увлечение беседами с компьютером способно пагубно сказаться на вашем горле.
По сообщению Денниса Эттейра, директора отдела исследований и обучения в институте повторяющихся нагрузок в Сан-Хосе (шт. Калифорния), 60% его пациентов, работающих с системами распознавания речи, регулярно испытывают ту или иную степень физического дискомфорта.
Специалисты по патологиям речевого аппарата разъясняют пользователям, что если те собираются каждый день диктовать компьютеру, то должны соблюдать исключительную осторожность. Эрика Данжелик, специалист по расстройствам речи из Сан-Франциско, дает следующие советы, помогающие избежать повреждения голосовых связок при разговоре с компьютером.
Следите за своей позой. Не вытягивайте шею, это приводит к ненужному напряжению гортани.
Подберите правильный тембр. Не говорите неестественно низким голосом, используйте нормальное для себя соотношение высоких и низких частот, избегайте искусственной монотонности.
Дышите, как вам удобно. Не спешите закончить предложение на одном дыхании. Вдыхайте и выдыхайте, когда нужно.
Диктуйте плавно. Старайтесь не отчеканивать слова и не начинать их слишком резко и с силой.
Не давайте горлу пересыхать. Пейте побольше жидкости.
Сохраняйте спокойствие. Злость и раздражение лишь ухудшат ваше состояние.
Аоифе МакэвойВести из лаборатории
Жалуетесь, что компьютер вас не понимает? Погодите. В один прекрасный день вы, может быть, сядете со своим компьютером и начнете с ним задушевную беседу, причем будете говорить в отворот пиджака.
Мы задали экспертам лидирующих научно-исследовательских центров по речевым технологиям вопрос о будущем распознавания речи. Вот что они ответили.
Разговор везде. Возможно, речевые технологии скоро выйдут из тихих кабинетов в шумный мир. "Следующее поколение систем распознавания слитной речи должно адаптироваться к несовершенным условиям", - говорит Фолькер Штайнбисс, старший инженер-технолог лаборатории обработки речи Philips в Аахене (Германия). Системы будущего, утверждает он, будут адаптироваться к неопытным пользователям, разбираться, когда вы диктуете, а когда произносите не относящееся к делу "ох" или "гм", отфильтровывать звуки дыхания. Качество распознавания улучшится независимо от обстановки, в которой происходит диктовка.
Виртуальный секретарь. По прогнозам компании Dragon, получат развитие ориентированные на речь программы, реагирующие на высказывания выполнением определенных действий. Через два года вы сможете сказать компьютеру: "Пошли Нэнси электронное письмо и запланируй встречу с ней на четверг", после чего система идентифицирует Нэнси, назначит встречу и сообщит, что она внесена в ваш календарь.
Реформа синтаксиса. IBM сосредоточила свои усилия на том, чтобы еще упростить работу с ViaVoice. "Сейчас компьютер не всегда позволяет нам разговаривать так, как мы хотим, - объясняет Дэвид Нээму, старший менеджер отдела языковых технологий исследовательского центра IBM. - Мы стремимся изменить это положение и предоставить пользователям большую свободу речи". Качество распознавания тоже значительно шагнет вперед, но, как считает генеральный менеджер IBM по речевым системам Оззи Осбурн, никогда не станет стопроцентным. Почему? "Начать с того, что сама наша речь не является стопроцентно правильной. Мы игнорируем синтаксис и глотаем слова. В действительности нам нужна не правильность, а стопроцентное понимание".
Носите на здоровье! Компьютерные фирмы мало сообщают о своих будущих продуктах, но все признают, что распознавание речи со временем будет встроено во все на свете прикладные программы, а также в службы Web, телефонные устройства, видеомагнитофоны, микроволновые печи, автомобили и даже предметы одежды. Крис Шмандт, главный научный сотрудник лаборатории средств передачи информации MIT, работает над системой распознавания речи, которая будет активизировать компьютер, встроенный в одежду. Главная идея здесь состоит в том, что ПК будет доступен вам постоянно, и вы будете общаться с ним исключительно посредством голоса. Правда, предупреждает Шмандт, "пройдет не менее десяти лет, прежде чем потребители увидят это приспособление на улицах".
Аоифе МакэвойПоговори со мной на QWERTY
Сотрудник редакции PC World Гарри Маккрэкен в течение двух недель управлял компьютером с помощью голоса. Вот его отчет.
Гм! Это тест. Микрофон включен? Отлично.
За годы практики я научился быстро печатать двумя пальцами; ни малейших признаков туннельного синдрома запястья у меня пока нет. Но по просьбе нашего редактора я отставил клавиатуру в сторону и две недели гулял по электронным таблицам и Web, а также писал письма с помощью пакета NaturallySpeaking компании Dragon Systems. Даже в данный момент я медленно, но почти верно диктую эту статью в Word.
Как ни странно, мне удалось справиться с работой и даже понравилось пользоваться системой распознавания речи. Диктовать электронные письма и даже документы в текстовом процессоре, как оказалось, очень удобно. И я извлек из своего опыта кое-какие полезные уроки, которые могут пригодиться и вам, если вы тоже решите взяться за микрофон.
Учитывайте окружение. У меня отдельный офис, и все же то, что я работаю с речевым вводом, несколько мешало коллегам (к счастью, мое бормотание больше веселило их, чем злило). Так что мне приходилось закрывать свою дверь перед тем, как приступать к сеансу диктовки, - особенно если диктовалось что-то, не предназначенное для широкой публики.
Дайте программе время. Я приступил к работе с пакетом прямо "из коробки" при минимальном обучении - и получил 50% правильно распознанных слов: уж лучше печатать пальцами ног! Но после дополнительного обучения и добавления в словарь программы ряда отсутствовавших там слов, которыми я постоянно пользуюсь, произошли существенные сдвиги. Кроме того, я научился при каждом надевании наушников с исключительной точностью размещать микрофон и следить за своим произношением так тщательно, что мне позавидовала бы даже Элиза Дулитл. (Над тем, чтобы одной рукой поднимать телефонную трубку, а другой сдирать наушники, я пока работаю.)
В сложных случаях переходите на печать. Я рассчитывал, что смогу полностью освободить руки. На это нет ни малейшего шанса. Но я быстро перешел в режим, в котором 90% всей вводимой информации приходилось на голос, а 10% - на клавиатуру. Определенные действия - скажем, ввод исправлений при неудачном распознавании - намного быстрее выполняются с клавиатурой, чем с микрофоном.
Будьте избирательны. Распознавание речи хорошо показывает себя при вводе неофициальных текстов, таких как электронные письма. Для официальных документов, требующих интенсивного редактирования, лучше всего продиктовать самый первый вариант, а затем отшлифовывать его, пользуясь клавиатурой, - что я и сделал для данной статьи. Тяжелее всего запомнить словесные эквиваленты "мышиных" команд, таких как "на пять слов назад".
Не ждите чудес. По сути Windows - клавиатурная система. Качество распознавания речи все еще оставляет желать лучшего. Исправлять ошибки сложно. А наушники из коробки NaturallySpeaking сжимают уши. Когда-нибудь - может быть, еще при нашей жизни - все эти недочеты будут устранены. Но сейчас не следует пытаться перейти на речевой ввод, если вы не готовы мириться с его недостатками. А впрочем, кто сказал, что освоение клавиатуры QWERTY и работа на ней - сплошное удовольствие?
Гарри МаккрэкенИтоги голосования | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
По результатом тестов лучшим оказался пакет Dragon, но ни одна из программ не свободна от недостатков. | ||||||||||||
Продукт | Компания | Розничная цена, долл. (20.10.98) | Общая оценка | Минималь- ные требования к системе | Активный словарь (слов) | Обучение | Процент правильно распозна- ваемых слов при диктовке1 | Редакти- рование | Форма- тирова- ние | Работа с внеш- ними програ- ммами | Управ- ление Рабочим столом | Комментарии |
NaturallySpeaking Preferred | Dragon Systems, 800/437-2466, www.dragonsys.com | 160 | очень хорошо | Pentium-133, память 32 Мбайт, 60 Мбайт на жестком диске, 16-разрядная звуковая плата | 62 000 | отлично | очень хорошо | удовле- твори- тельно | очень хорошо | удовле- твори- тельно | удовле- твори- тельно | Это в буквальном смысле слова лучший из существующих пакетов для диктовки |
ViaVoice 98 Executive Edition | IBM, 800/825-5263, www.ibm.com/viavoice | 149 | хорошо | Pentium-166, память 32 Мбайт, 125 Мбайт на жестком диске, 16-разрядная звуковая плата | 64 000 | хорошо | хорошо | хорошо | хорошо | хорошо | хорошо | Замечательное управление экраном, но качество распознавания при диктовке ниже, чем у Dragon. |
Voice Xpress Professional | Lernout & Hauspie, 800/380-1234, www.lhs.com | 150 | хорошо | Pentium MMX-166, память 48 Мбайт, 130 Мбайт на жестком диске, 16-разрядная звуковая плата | 30 000 | хорошо | удовле- твори- тельно | удовле- твори- тельно | удовле- твори- тельно | удовле- твори- тельно | удовле- твори- тельно | Качество распознавания неравномерное, команды управления и форматирования иногда воспринимаются неправильно |
FreeSpeech 98 | Philips, 800/851-8885, www.freespeech98.com | 392 | удовле- твори- тельно | Pentium MMX-166, память 32 Мбайт, 64 Мбайт на жестком диске, 16-разрядная звуковая плата | 64,000 | хорошо | удовле- твори- тельно | слабо | удовле- твори- тельно | удовле- твори- тельно | слабо | Самый дешевый пакет, но не стоит даже этих денег. |
1 Число правильно распознанных слов по результатам теста на диктовку. Диктовались деловые письма, статьи по бизнесу и сообщения для электронной почты; главным было деловое письмо, содержавшее небольшую табличку, несколько необычных имен и названий, а также URL. 2 Не комплектуется микрофоном с наушниками. |