В начале 2013 года компания Leap Motion выпустила устройство, позволяющее управлять приложениями на компьютере, жестикулируя пальцами и руками. Аналитики разошлись во мнениях по поводу полезности такого контроллера, однако сам факт поступления его в продажу, как и состоявшийся тремя годами раньше выход Microsoft Kinect, стал большим шагом вперед к повсеместному применению жестикуляционных интерфейсов. Такие интерфейсы основаны на алгоритмах, распознающих телодвижения, — система определяет, с какой командой сопоставлен тот или иной жест и выполняет соответствующее действие. Например, если пользователь делает движение рукой в сторону, это может означать команду перелистывания страницы электронной книги.
Сторонники таких интерфейсов утверждают, что системы распознавания жестов, полагающиеся на технологии компьютерного зрения, обработки изображений и др., полезны прежде всего тем, что позволяют людям общаться с машиной более естественным образом, без мыши или иного устройства-посредника. Подобные интерфейсы уже давно обсуждаются, как потенциально удобные и многофункциональные — за последние годы вышел целый ряд продуктов с управлением жестами, однако массового применения технология все еще не получила. Но все же ситуация меняется — поддержка распознавания жестов имеется во множестве электронных новинок, а технология активно развивается. Однако имеются и определенные сложности — например, пока еще не хватает привлекательных для потребителя применений распознавания жестов, чтобы технология стала коммерчески жизнеспособной.
Что нового?
Исследования в области жестикуляционных интерфейсов ведутся уже больше сорока лет. Когда Microsoft в 2010 году выпустила популярную сегодня систему распознавания телодвижений Kinect для игровой консоли Xbox 360 и Windows-компьютеров, это стало важной вехой на пути выхода новых интерфейсов на массовый рынок. Только за первые два месяца после начала продаж корпорация продала 8 млн контроллеров Kinect.
Рост интереса к жестикуляционным интерфейсам обусловлен несколькими причинами. Люди носят с собой электронику практически повсюду, и им нужно, чтобы гаджеты стали проще в обращении. Средства распознавания жестов становятся более совершенными — например, появились недорогие экономичные быстродействующие процессоры, развиваются алгоритмы, 3D-камеры и средства обработки сигналов. Всего несколько лет назад встраиваемые компьютерные платформы еще не были способны, как сегодня, исполнять алгоритмы машинного зрения — важнейший элемент жестикуляционных интерфейсов. Как полагают аналитики Enderle Group, системы распознавания жестов появляются в основном благодаря тому, что поставщики видят возможность с их помощью сделать свои продукты привлекательнее в глазах покупателей.
Контроллер Leap Motion
Компания Leap Motion в 2013 году выпустила долгожданный для многих первый продукт — Leap Motion Controller, представляющий собой небольшое периферийное устройство, подключаемое к порту USB компьютера с Windows или Mac OS. С помощью двух камер и трех инфракрасных светодиодов система следит за движениями рук, пальцев или других объектов в метровом радиусе сверху и по сторонам от себя. В отличие от камеры Kinect, реагирующей на движения тела и конечностей, Leap Motion Controller распознает движения малозаметных предметов с точностью 0,01 мм.
В некоторых жестикуляционных системах применяются камеры большого разрешения, получающие массу информации из области своего обзора. Анализ всех этих данных требует внушительного объема вычислений, а контроллер Leap Motion отличается низкой задержкой, поскольку в нем используется упрощенная камера, а его алгоритмы извлекают только те данные, которые требуются для текущей задачи. Здесь программно реализованы механизмы распознавания мелких объектов и их движений, благодаря чему регистрируются даже незначительные жесты, что вместе с компактностью системы позволяет внедрить интерфейс во многих типах устройств. Компания заключила договоры об оснащении своей технологией компьютеров от ASUS и HP, а также с производителями мобильных устройств. В Leap Motion создали онлайн-магазин Airspace Store, где представлено около сотни платных и бесплатных приложений, разработанных для жестового контроллера.
WiSee
В Вашингтонском университете разработали жестикуляционный интерфейс WiSee, с помощью которого можно управлять домашней техникой: телевизорами, компьютерами, термостатами, освещением и т. п. Система отправляет в эфир поток сигналов микроволнового диапазона — движения руки или тела, совершаемые людьми в комнате, где находится передатчик, нарушают сигнал, вызывая частотные сдвиги. Исследователи выяснили, каким именно сдвигам соответствуют девять различных жестов и разработали алгоритмы, повышающие точность распознавания искажений,.
Система работает исключительно с радиосигналами — ей не требуются камеры или вспомогательное оборудование. Так как радиоволны проникают сквозь стены, пользователям не обязательно находиться в одном помещении с передатчиком. Чтобы начать работу с WiSee, нужно сначала совершить пусковую серию жестов.
Подготовка WiSee к коммерческому применению пока не ведется. Исследователи, испытав свою технологию в обстановке квартиры и офиса, выяснили, что она распознает «свои» девять жестов с точностью 94%.
Touch Free
Данная программная технология, созданная компанией eyeSightс, с помощью алгоритмов машинного зрения и обработки изображений следит за жестами руки и преобразует их в команды управления каким-либо устройством. Touch Free обрабатывает видеопоток с обычной 2D-камеры, инфракрасных датчиков или датчиков глубины, отыскивая предмет, на распознавание которого она была настроена (например, руку, палец или лицо), а затем следит за его движениями. Touch Free можно внедрить практически в любое электронное устройство — это решение уже используется практически во всех видах устройств потребительской электроники: смартфонах, планшетах, ПК, телевизорах и даже в кондиционерах.
GestiC
GestiC — это недорогой экономный чип от компании Microchip Technology, который можно использовать в широком круге устройств, включая планшеты, ноутбуки, автомобили и потребительскую электронику. Принцип действия чипа основан на создании электрического поля: как только часть тела или иной электропроводящий предмет оказывается в области распространения поля, система регистрирует его нарушение, определяя расположение предмета в пространстве. С помощью GestiC можно управлять устройствами с расстояния до 15 см без использования камер или видеопроцессоров. С помощью алгоритмов распознавания шаблонов система «узнает» жесты, которым ее обучили, например смахивающие или кругообразные. Производители устройств со встроенным GestiC могут запрограммировать соответствие жестов различным управляющим командам, а специальные алгоритмы помогают чипу отличать управляющие жесты от других телодвижений.
Другие жестикуляционные интерфейсы
В преддверии выхода игровой консоли Xbox One, Microsoft обновила жестикуляционный контроллер приставки Kinect — в его новом варианте используется широкоугольная камера-дальномер с разрешением Full HD (1080 точек), регистрирующая расстояния до объектов по времени возвращения отраженного от них света. Она работает быстрее и точнее, чем в предыдущей модели контроллера, а благодаря инфракрасному датчику сохраняет работоспособность даже в темноте.
Жестовые интерфейсы есть и у других новых продуктов, например у «умных» наручных часов Kreyos Meteor, которые общаются по Bluetooth со смартфоном на базе iOS, Android или Windows 8. Взмахом руки, на которой находятся часы, пользователь сможет ответить на звонок или вывести на экран пришедшую SMS. Движения кисти рук часы распознают с помощью трехосевого гироскопа, акселерометра и других датчиков.
В Apple, в свою очередь, разработали для iOS 7 систему, оснащенную камерой, позволяющую управлять iPhone жестами руки и движениями головы.
Система Grasp компании Omek Interactive, состоящая из связующего ПО и набора программных инструментов, обрабатывает данные с дальномерных камер, позволяя разработчикам создавать жестикуляционные интерфейсы для приложений и устройств.
Преимущества и применения
Пользователи предпочли бы избавиться от барьеров, воздвигаемых традиционными интерфейсами между ними и техникой, — людям удобнее взаимодействовать без посредников, а жестикуляция вполне естественный способ общения. Жестикуляционные интерфейсы позволяют привычными движениями, например имитируя перелистывание страницы, выполнить аналогичное действие на экране. Нажатия на клавиши нельзя отнести к естественным способам общения для человека, и главное преимущество жестикуляционной технологии в том, что она позволяет проще и быстрее отдавать команды устройствам. Кроме того, новые интерфейсы позволяют освободить экранное пространство от клавиш и других наглядных элементов управления. Помимо этого, жестикуляция развлекает и позволяет сосредоточиться на экране, а не на мышке, клавиатуре или пульте дистанционного управления.
Сторонники жестикуляционных интерфейсов уверены в их полезности для многих применений. Кроме возможности управлять потребительской электроникой в режиме hands-free, жестикуляционные контроллеры способны сделать игры более интерактивными и захватывающими. Геймеры будут готовы осваивать даже достаточно сложные жестикуляционные интерфейсы, а простыми, «понимающими» один-два жеста, можно оснащать телевизоры и информационные терминалы.
Жестикуляционные интерфейсы могут упростить инвалидам взаимодействие с электроникой. Еще одно потенциальное применение — автомобили. С помощью телодвижений можно управлять развлекательной системой, очистителями стекол, фарами и другим оборудованием, не отрывая глаз от дороги. Ford Motor уже выпускает автомобили, у которых автоматически открывается багажник, если под ним провести ногой.
Жестикуляционные интерфейсы позволят врачам и медсестрам управлять компьютерами и другими устройствами, не дотрагиваясь до них, — это очень ценная возможность для анатомических театров и ситуаций, когда медикам нужны чистые руки, а также в случаях, когда оборудование находится вне прямой досягаемости.
Сложности
Рыночному успеху жестикуляционных интерфейсов мешает ряд потенциальных препятствий — например, жесты не всегда распознаются точно. Кроме того, такими интерфейсами бывает сложно пользоваться, если разработка проходила без помощи экспертов по человеко-машинному взаимодействию.
Ряд экспертов считает, что жестикуляционные системы слишком сложны в освоении и применении, а системы на основе камер имеют ограниченное поле зрения, поэтому круг их применений не слишком широк. В некоторых случаях точность распознавания движений у таких систем страдает из-за загрязнения объектива, плохого освещения или посторонних предметов в поле зрения камеры.
Рынок систем жестикуляционного управления относительно нов, стандартов еще практически нет, и в различных системах используются совершенно разные интерфейсы, камеры и алгоритмы. Из-за этого пользователям сложнее переходить от одной системы к другой.
Нередко жестикуляционным системам не хватает дальности действия, что тоже ограничивает круг их применений, а некоторые системы не всегда отличают управляющие жесты от случайных. Но самая большая сложность состоит в том, чтобы заинтересовать разработчиков созданием приложений с жестикуляционными интерфейсами — многие слишком привыкли к традиционным интерфейсам, чтобы быстро от них отказаться.
Что дальше?
Со временем люди освоят альтернативные способы управления компьютером и начнут пользоваться комбинацией из нескольких способов: жестов, голосовых команд, отслеживания движений глаз и т. п. Толчок к этому дадут новые вычислительные и коммуникационные устройства, в том числе носимые — вроде Google Glass. Однако жестикуляционные интерфейсы не вытеснят традиционные мышь и клавиатуру, а будут применяться только в тех случаях, когда это наиболее удобно. Первыми такие интерфейсы возьмут на вооружение молодые пользователи, и по мере их взросления эта технология станет более распространенной.
Если нынешние жестикуляционные системы, как правило, следят за пальцами и руками, то в дальнейшем они также смогут распознавать движения головы и глаз. Такие интерфейсы должны стать естественными и удобными, чтобы не повторилась ситуация с технологией распознавания речи, которая так и не стала массовой из-за того, что ее надо обучать вашему голосу, прежде чем начать ею пользоваться.
***
Как бы то ни было, у жестикуляционных интерфейсов появятся применения, без которых люди просто не смогут жить, — уже сегодня видно, что популярность этой технологии растет на порядок быстрее по сравнению с распознаванием голоса. По мнению аналитиков, через три года системы машинного зрения и жестикуляционные интерфейсы получат такое же признание, какого голосовые технологии добились за тридцать лет.
Ли Гарбер (lgarber@computer@org) — старший редактор IEEE Computer Society.