Со Стефаном Губо, вице-президентом компании Dialogic, лидера в области компьютерной телефонии, беседует ответственный редактор "Computerworld Россия" Игорь Левшин.
Давайте начнем с общего положения в этой новой отрасли.
Тогда предлагаю начать с географии. В США, например, не очень распространены технологии распознавания голоса и импульсного набора, потому что практически у всех телефонов тоновый набор. А в Европе, не только в России, но и в Испании, Германии, Италии тоновый набор слабо проник в телефонию. Поэтому для создания систем голосовой почты, систем с голосовым управлением или интерактивных справочных служб нужно использовать совершенно другие способы взаимодействия с сервером, и вот тут на помощь могут прийти распознавание голоса и импульсного набора. Но и в США, если вы используете сотовую связь, имеет смысл применять распознавание голоса, потому что, когда вы едете в машине, отдавать команды голосом гораздо удобней, чем нажимать кнопки телефона. Вы просто говорите "звонок домой" или "звонок в офис" и система соединяет вас. Вообще, не больше 10% прибыли мы получаем от систем с распознаванием голоса, но это очень важная часть рынка. И если мы предлагаем пакет продуктов, в котором отсутствуют возможности распознавания голоса, его могут не купить именно потому, что он неполон.
В России работать интересно. Мы используем здесь системы распознавания голоса, и они работают. Идет тестирование и отладка систем для распознавания импульного набора. Мы надеемся, что у нас будут продукты, которые способны подсоединяться куда угодно и работать где угодно. Но это не всегда необходимо, потому что уже существует множество мини-АТС и других устройств с возможностью переключения режимов набора с тонового на импульсный и обратно.
Насколько я понимаю, в Японии похожее положение с импульсным набором?
Да, это так. Там очень широко применяется импульсный набор и гораздо менее популярен тоновый. Мы делаем много устройств для Японии, и все они прекрасно работают. При этом приходится преодолевать ряд сложностей. Сигнал может фильтроваться как на уровне АТС, так и на уровне центрального офиса. У вашего телефона, допустим, импульсный набор, АТС устанавливает соединение. После этого вы набираете цифры - управляющую информацию, но АТС не способна интерпретировать их, потому что после установления соединения включается фильтр, который обрезает пички импульсов, которые вы набираете. Связь с голосовым сервером нарушается. Для того чтобы этого не происходило, надо специально договариваться с АТС об отмене режима фильтрации.
Это проблема устаревшего оборудования?
Не обязательно устаревшего. Просто оборудование создается без учета современных возможностей. При общении с сервером вы набираете ноль и линия рассоединяется.
Вы говорили о том, что появляется все больше и больше открытых компьютерных систем, а в телефонии пока что царят технологии изготовителя. Положение меняется?
Конечно! Стремительно меняется. Изготовители коммутаторов предприятий и коммутаторов центральных офисов переориентируются на компьютерную телефонию и, соотвественно, на открытые компьютерные стандарты, UNIX и Windows NT. Приходится учитывать стандартные сетевые протоколы, стандарты компрессии и декомпрессии голоса. Приходится писать стандартные драйверы для стандартных API, чтобы приложение не зависело от аппаратной реализации. У вас должна быть возможность заменить плату распознавания русского языка от одного производителя на плату распознавания французкого языка от другого производителя, не меняя ничего в коде приложения.
Программа распознавания голоса, например, не загружается в компьютер?
Нет-нет. Она работает на плате. Есть реализации для центрального процессора, но это неэффективно: программа отнимает слишком много ресурсов. Полоса телефонной линии имеет разумные ограничения, поэтому качество здесь не очень высокое. Кроме того, распознавание должно происходить независимо от говорящего - нужно, чтобы и ваш голос, и голос вашей жены распознавались одинаково эффективно.
Но это должно сказаться на гибкости системы. Невозможно обучение системы, настройка словарей.
Это вообще не тот случай, когда можно применять обучение системы. Система стала бы зависимой от говорящего. Обучать стоит только настольные системы. Если у вас есть микрофон и много времени, то можно достичь прекрасного распознавания. Но мы говорим о телефонных линиях. Что касается словарей, то это сегодня одна из главных проблем. У Dialogic сейчас есть мощная открытая DSP-плата (с процессором цифровой обработки сигнала), на которой разработчики могут реализовать свои алгоритмы. В этих алгоритмах осуществляется в том числе возможность добавления новых слов в словарь.
Настольными системами вы вообще не занимаетесь?
Мы ориентируемся на серверы и не претендуем на долю рынка, связанную с настольными системами. Понятно, что поскольку мы имеем дело с архитектурой клиент/сервер, клиентские приложения будут выполняться на настольных системах, но они обязательно используют ресурсы сервера. Такие ресурсы - слишком дорогое удовольствие для настольной системы.
Это сейчас. Но, может быть, лет через пять, когда настольные системы станут мощней, можно будет перенести приложения целиком на них?
Возможно. Вопрос только зачем? Вы устанавливаете на настольной системе программы распознавания и синтеза голоса и оказываетесь привязаны к своей настольной системе. В будущем люди будут стремиться получить услугу в том месте, где они в данный момент находятся. Пользоваться сервером в этой ситуации гораздо удобней.
Жаль, что нельзя вставить кассету с нашей беседой в какое-то устройство и распознать в компьютере.
Я вас понимаю. Но в этом секторе рынка мы не работали и работать не будем. Это по части компаний, имеющих дело с настольными системами. В идеале и наши и их устройства могли бы работать вместе, используя общие API. Более того, вы, похоже, имеете в виду готовые продукты для конечных пользователей. А мы прежде всего поставляем технологию. Это - платы (вместе с драйверами) с большим количеством микропрограммного обеспечения. Мы не работаем с конечным пользователем. Мы действуем через системных интеграторов и заинтересованы в том, чтобы они шли на этот рынок и использовали наши технологии. Работы для них много, их клиентами будут банки, гостиницы, туристические агентства, энергетические службы и компании. В России уже работают два десятка компаний-системных интеграторов, предлагающих решения на базе наших плат. Как правило, это небольшие программистские фирмы, а в качестве поставщика технологии выступает компания CompTek International.
Все поставки будут идти через нее?
Да, мы выбрали ее нашим мастер-дистрибьютором. Компьютерная телефония - новая область, она требует существенных инвестиций. Надо объяснять людям преимущества новой технологии, нужна реклама. Нет смысла распылять средства, деля их между десятком компаний-дистрибьюторов. Наш партнер прекрасно ориентируется в этих технологиях и в ситуации на данном рынке, поддерживает контакты с основными разработчиками систем компьютерной телефонии. Это очень важно. Российская группа разработчиков может, скажем, загрузить свой алгоритм, свою программу на нашу плату и сразу получить доступ к рынку: разработчику не надо думать об интерфейсах, сетевых устройствах - все это уже реализовано на нашей DSP-плате. Это особенно важно для маленьких компаний-разработчиков. Другим способом они просто не попадут на рынок. Им пришлось бы инвестировать немалые деньги в разработки и тратить гораздо больше времени. А так - они покупают у нас лицензию, мы включаем их в свой каталог, чтобы они, в свою очередь, могли получить доход, когда другие воспользуются их продуктом.
Это все тоже через мастер-дистрибьютора?
Конечно. Такое общение гораздо эффективней. Ваш рынок очень специфичен, российским компаниям легче разобраться в его тонкостях. Наша миссия - предоставить универсальную платформу.
Как Вы оцениваете уровень и темпы развития технологии в России?
Темпы внедрения систем CTI в России превзошли все наши ожидания. Несмотря на то что эта технология стала развиваться здесь совсем недавно (чуть больше года назад), сегодня уже не нужно объяснять пользователям функциональные возможности и преимущества применения систем CTI. Результаты использования систем в ряде крупных банков, телефонных и энергетических компаний, служб безопасности, информационных служб сделали системы CTI престижным в смысле полноты предоставления услуг, и спрос на подобные системы растет лавинообразно. Компании-разработчики приложений сегодня имеют отличные шансы увеличить свои обороты и прибыли.
Такая картина характерна только для России?
Мы наблюдали нечто подобное в других европейских странах, в частности в Испании, но в России этот процесс приобрел совсем другие масштабы - уровень телефонизации и компьютеризации здесь чрезвычайно высок и продолжает расти, мы вообще затрудняемся определить верхний предел возможностей спроса на системы CTI здесь, особенно наблюдая картину развития за первый же год.
Говоря об открытых системах, как обстоит дело в России?
Здесь картина более чем обнадеживающая. Поскольку в России используется не так много дорогостоящих крупных АТС (т.е. используется не так много "закрытых" систем), пользователям не нужно тратить деньги на "переход" к открытым системам, они могут сразу устанавливать более дешевые и основанные на стандартах системы CTI. Мне известно, что разработки крупных и сложных систем уже ведутся в Москве и за этим, безусловно, будущее.
Часто говорят о трудностях, связанных с качеством наших телефонных линий, несоответствием международным стандартам и т.д. Есть ли в Российских телефонных линиях какая-то специфика, затрудняющая продвижение технологии в этой стране?
Почему-то это самый популярный вопрос! Могу ответить коротко: НЕТ! С подобными проблемами (шумы, ненадежность соединения) мы можем столкнуться где угодно. Это вообще специфика телефонного сигнала. Именно с таким сигналом и работает наше оборудование, для этого оно и создавалось. И российские линии в этом смысле мало чем отличаются от любых других.