Интеллектуальные среды, носимые компьютеры, всепроникающая компьютеризация - таковы вехи грядущего «четвертого поколения» вычислительных и информационных технологий [1-3]. Эти устройства будут повсюду - на нашей одежде, в нашем доме, автомобиле и офисе, а их экономическое влияние и общекультурное значение затмят достижения первых трех поколений компьютеров. Наконец, это самые захватывающие и экономически значимые направления исследований в сфере информационных технологий.
Однако чтобы новое поколение компьютеров получило широкое применение, создателям интерфейсов необходимо разработать новые методы взаимодействия с компьютером без использования клавиатуры или мыши. Чтобы проложить дорогу к широкому потребителю, нужны дружественные и персонализированные способы общения с компьютером. Это значит, что интерфейсы нового поколения должны идентифицировать окружающую человека обстановку и, как минимум, узнавать его самого.
Средства идентификации
Итак, необходимо научить компьютер идентифицировать личность человека. Какую технологию для этого выбрать? Существует большое разнообразие методов идентификации, причем многие из них получили широкое коммерческое применение и используются уже немало лет. На сегодняшний день в основе наиболее распространенных технологий верификации и идентификации лежит использование паролей и персональных идентификаторов (personal identification number — PIN) или жетонов (token) типа водительских прав (лицензия водителя является для многих американцев чуть ли не единственным «бумажным» удостоверением личности — прим. ред.). Однако такие системы слишком уязвимы и могут легко пострадать от подделки, воровства и просто человеческой забывчивости. Поэтому все больший интерес вызывают методы биометрической идентификации, позволяющие определить личность человека по его физиологическим характеристикам путем распознавания по образцам. Классический пример биометрии - анализ отпечатков пальцев, а к новейшим технологиям относятся распознавание сетчатки и радужной оболочки глаза.
Применение этих биометрических методов оправдано в банковской сфере и режимных предприятиях для ограничения доступа к секретной информации, однако у них есть один серьезный недостаток. Такие технологии слишком навязчивы и в физиологическом, и в социальном смысле. Они требуют от человека чтобы он занял определенное положение относительно чувствительного элемента и простоял так несколько секунд. И эта процедура вряд ли изменится, поскольку технология требует самого тщательного пространственного анализа. Надо иметь в виду, что, общаясь между собой, люди не опознают друг друга путем сканирования сетчатки, поэтому подобные методы идентификации кажутся им не вполне естественными.
Интерфейс типа «остановись и продекларируй себя» нужен приложениям с высокими требованиями к безопасности (некоторая задержка заставит пользователя осознать важность проблемы). Однако для магазина, в котором узнают своих постоянных клиентов, для информационного киоска, который вас «помнит», или здания, которое «знает», кто в нем живет, нужно совсем другое. Для интеллектуальных сред нового поколения лучше всего подходят технологии распознавания лиц и голоса. Они ненавязчивы (распознавание происходит на расстоянии, не задерживая и не отвлекая человека), они, как правило, пассивны (не требуют специального уровня освещенности), они не ограничивают пользователя в свободе перемещений, к тому же потребляют мало энергии и недороги. Но самое важное, по-видимому, то, что люди обычно узнают друг друга по лицам и голосам, значит, не будут испытывать неудобств с системой, основанной на аналогичных способах распознавания.
Как реализовать распознавание лиц?
20 лет назад проблема распознавания лиц считалась одной из сложнейших задач искусственного интеллекта и компьютерного зрения. Однако целая череда успешных реализаций прошлого десятилетия показала, что этот метод идентификации личности не только технически осуществим, но и экономически выгоден.
Когда разрешимость проблемы распознавания лиц стала очевидна, мечты об интеллектуальных средах породили мощную волну интереса к этой задаче как со стороны исследователей, так и со стороны инвесторов. Появилось несколько преуспевающих коммерческих предприятий. Сегодня ряд компаний представляют на рынке программные системы распознавания лиц, которые обеспечивают распознавание высокой точности и имеют базы данных с более чем тысячами изображений людей.
Для того чтобы достичь своих первых успехов, разработчикам потребовалось четко определить и реализовать методы распознавания по образцу и хорошо разобраться в довольно непростом процессе генерации изображений. Кроме того, исследователи обнаружили, что им поможет знание присущих людям регулярных свойств. Например, в основе того или иного цвета человеческой кожи лежит одномерное многообразие цветового пространства, а цветовые оттенки зависят прежде всего от концентрации меланина. Существует ограниченное число вариантов геометрии человеческого лица, и если человек смотрит на камеру, его лицо, по существу, двумерно. Сегодня идет работа над тем, чтобы ослабить некоторые ограничения существующих алгоритмов распознавания лиц и добиться их устойчивой работы в случае изменения в освещенности, старения или смены выражения лица. Кроме того, исследователи заняты решением проблемы восприятия тех или иных перемен внешнего облика человека, таких как, скажем, волосы на лице, очки или макияж. На этот счет существует уже несколько частных решений.
Типовая репрезентативная база
За эти годы основное развитие получил репрезентативный метод распознавания, который носит скорее описательный, чем производительный характер. В нем используются обучающие изображения, характеризующие тот диапазон двумерных обликов объекта, который должна распознавать система. В начале применялись очень простые методы моделирования, однако, теперь для анализа наружности человека в основном используется функция плотности вероятности (probability density function — PDF) на данном изображении для целевого класса.
Предположим, даны маломерные представления нескольких образцов целевого класса Q, например, лиц. Тогда не представляет труда смоделировать функцию PDF P(x|Q) от характеризующего изображение признака х этого класса как простую параметрическую функцию - комбинацию функций гауссовского распределения. В результате будет получена маломерная, эффективно вычисляемая модель внешнего облика для целевого класса. Другими словами, можно использовать изображения образцов для получения простой математической модели внешнего облика лиц.
Если вычислена функция PDF для целевого класса, то для обнаружения и распознавания по принципу «максимум последующего» (maximum a posteriori — MAP) применяется правило Байеса. Как правило, в результате будет получено очень простое, подобное нейронной сети, представление внешнего вида из целевого класса. Это представление система использует для опознания экземпляра класса, компактного описания его внешнего вида и сравнения различных образцов одного и того же класса. Большую эффективность этой репрезентативной базы доказывает тот факт, что некоторые современные методы распознавания лиц способны обрабатывать видеоданные со скоростью 30 кадров в секунду. Есть несколько систем, которые проводят сравнение поступившего лица с базой данных из тысячи лиц менее чем за секунду - и все это на стандартном ПК!
Как справиться с размерностью?
Для того чтобы получить представление внешнего облика человека, прежде всего необходимо перевести изображение в маломерную систему координат, сохранив общее зрительно воспринимаемое качество изображения целевого объекта. Это преобразование необходимо для решения проблемы размерности: исходные данные изображения имеют так много степеней свободы, что для получения нужного диапазона наружностей потребовалось бы проанализировать миллионы образцов. Для сокращения размерности применяются следующие методы:
- преобразование Карунена-Лева (Karhunen-Loeve transform, другое название - анализ основных компонентов);
- аппроксимация Ритца (Ritz approximation, другое название - представление на базе образцов);
- представление с редкой фильтрацией (sparse-filter representation, например, струйные и волновые преобразования Габора);
- гистограммы признаков (feature histogram);
- анализ независимых компонентов.
Все эти методы эффективно характеризуют маломерное подпространство в рамках полного пространства измерений для исходных изображений. Как только получено маломерное представление целевого класса: лица, глаза или руки можно использовать стандартные статистические методы оценки параметров и изучить диапазон внешних обликов целевого объекта в новой, маломерной системе координат. Благодаря небольшой размерности для получения осмысленной оценки функции PDF или межклассовой функции дискриминанта (interclass discriminant function) потребуется сравнительно немного образцов.
Существует одна важная разновидность этой методологии - так называемые модели отличий (discriminative model) - в которой делается попытка смоделировать различия между классами, а не сами классы. Часто исследование таких моделей оказывается более эффективным и точным, чем непосредственное моделирование функции PDF. Простой линейный пример отличительного признака - дискриминант Фишера. Кроме того, системы могут использовать классификаторы отличий, которые помогают довести до максимума различия между классами.
Работы по распознаванию лиц
Распознавание лиц имеет столь же давнюю историю, что и проблема компьютерного зрения (computer vision). Эта задача имеет серьезную практическую перспективу и вызывает большой исследовательский интерес. Несмотря на то, что другие методы идентификации (отпечатки пальцев или сканирование радужной оболочки), возможно, более точны, распознавание лиц всегда было в центре внимания ученых в силу своей «неагрессивности» по отношению к пользователям. Этот метод опознания личности для человека естественен и реализуется на интуитивном уровне.
Среди первых реализаций распознавания лиц наиболее известна, по-видимому, система Теуво Коонена из Технологического университета Хельсинки [4]. Он продемонстрировал, что распознавание выровненных и нормализованных изображений можно выполнить с помощью простой нейронной сети. Сеть, которую использовал Коонен, вычисляла описание лица, аппроксимируя собственные вектора матрицы автокорреляции изображения. Эти собственные вектора (eigenvector) получили название «собственные лица» (eigenface).
Однако система Коонена не нашла практического применения, поскольку базировалась на точном выравнивании и нормализации. В последующие годы предпринимались многочисленные попытки реализации схем распознавания лиц с использованием различных методов нейронных сетей. Удалось сделать несколько удачных систем, работавших с небольшими базами данных выровненных изображений. Но не было ни одной успешной реализации для более жизненной ситуации - крупномасштабной базы данных, в которой расположение и размеры лиц неизвестны.
Затем Майкл Кирби и Лоуренс Сирович из Университита Брауна [5] ввели алгебраическую операцию, которая упростила прямое вычисление «собственных лиц». Кроме того, они показали, что для аккуратного кодирования тщательно выровненных и нормализованных изображений нужно не более 100 собственных лиц. Мэтью Турк и Алекс Пентланд из Массачусетского технологического института [6] продемонстрировали, что остаточную погрешность, которая возникает при кодировании с помощью собственных лиц, можно использовать для обнаружения лиц в неупорядоченном естественном изображении и определения точного расположения и размера лица. Затем они показали, что объединение этого метода обнаружения и локализации лиц с методом распознавания собственных лиц обеспечивает надежное распознавание лиц в реальном времени, при этом на среду распознавания накладываются минимальные ограничения. Когда стало очевидно, что комбинация простых методов распознавания в реальном времени позволяет создать весьма эффективную систему, интерес к распознаванию лиц стремительно вырос.
Современные разработки
К 1993 году было заявлено о существовании нескольких алгоритмов, правильно решающих задачу в среде с минимальным числом ограничений. Чтобы выявить их реальный потенциал, агентство DARPA и Исследовательская лаборатория армии США разработали програму Feret (face recognition technology). Цель этой программы - оценить эффективность предложенных алгоритмов и стимулировать развитие лучших из них.
В ходе реализации программы Feret три алгоритма продемонстрировали самый высокий уровень точности распознавания для больших баз данных (1200 человек) в наиболее сложных для распознавания условиях тестирования. Это алгоритм, разработанный в Университете Южной Калифорнии [8] (рис. 1); алгоритм Университета штата Мэриленд [9]; и алгоритм, созданный в Media Laboratory Массачусетского технологического института [10] (рис. 2).
Рис. 1. Система Университета Южной Калифорнии распознает лица путем гибкого сравнения с графом (elastic graph matching). Чтобы получить общее представление лица, так называемую адаптированную к объекту решетку (object-adapted grid), система по 70 моделям лица создает обобщенный граф лица (face bunch graph) (a). Затем (b) сравнивает заданное изображение с обобщенным графом и ищет отправные точки. С помощью гибкого сравнения создается граф изображения, и затем для опознания лица полученное изображение сравнивается с лицами из базы данных. 1 - адаптированная к объекту решетка (лицо) |
Только два алгоритма, первый и третий, накладывает минимальные ограничения на процедуры обнаружения и распознавания лиц. Вторая система будет работать только при условии приближения глаз. Поначалу у этих алгоритмов существовал четвертый конкурент, разработанный в Университете Рокфеллера (рис. 3). Но тестирование этого алгоритма было отложено - требовалось прежде перевести его на коммерческую основу [11]. На базе первого и третьего алгоритмов уже реализованы коммерческие системы.
Рис. 2. В основе системы Массачусетского технологического института, которая использует для распознавания лиц метод собственных лиц, лежат моделирование наружности (a) и моделирование отличий (b). (а)
|
В алгоритмах МТИ, Университета Рокфеллера и Университета штата Мэриленд используются варианты метода преобразования собственных лиц, а затем моделирование отличий. Алгоритм Университета штата Мэриленд использует линейный дискриминант, а система МТИ - квадратичный. В системе Университета Рокфеллера используется разреженный вариант преобразования собственных лиц, после которого включается в работу нейронная сеть отличий. В основе системы Университета Южной Калифорнии лежит совершенно иной подход. Сначала из изображения вычисляются струи Габора (Gabor jet), затем при помощи алгоритма поиска соответствия по графу (graph-matching algorithm) проводится гибкое сравнение описателей изображения c образцами.
Рис. 3. Разработанная в Университете Рокфеллера система для распознавания лиц использует анализ локальных признаков. Части лица, отмеченные на изображении слева, соответствуют областям (а) рта, (b) носа, (c) брови, (d) щеки и (e) скулы. (Печатается с разрешения NYT Pictures). |
В тестовые базы данных Feret заносились лица в различных положениях, разного размера и по-разному освещенные, похожие на фотографии для водительских удостоверений или полицейского архива. Работа всех четырех алгоритмов была близка к идеалу в том случае, если база данных включала не более 200 лиц, а изображения получались при сходных условиях. Интересно, что даже простое сравнение корреляций иногда удавалось провести с той же точностью на базе данных ровно из 200 элементов [7]. Из этого со всей очевидностью следует, что признать новый алгоритм достойным рассмотрения можно только в том случае, если он протестирован на базе данных из по крайней мере 200 человек и продемонстрировал эффективность распознавания не ниже 95% для изображений типа фотографий для удостоверений.
В более масштабных тестах программы Feret (с числом изображений не менее 1196) эффективность всех четырех алгоритмов была примерно одинаковой. В этой связи трудно или даже невозможно провести четкие различия между ними (особенно если согласовать даты тестирования). Для фронтальных изображений, сделанных в один и тот же день, приемлемая точность распознавания, как правило, составляет 95%. Для изображений, сделанных разными аппаратами и при разном освещении, точность, как правило, падает до 80%. Для изображений, сделанных с разницей в год, точность распознавания составляет примерно 50%. При этом стоит заметить, что даже 50 процентов - это более чем приемлемая точность работы системы.
Коммерческие системы и приложения
Сейчас имеется несколько коммерческих продуктов для распознавания лиц. Ряд из них базируются на алгоритмах, признанных лучшими в программе Feret; другие никак с ней не связаны. Дать окончательную оценку очень сложно, однако, похоже, три системы выбиваются в лидеры - это разработки компаний Visionic, Viisage и Miros.
- В основе приложения FaceIt компании Visionic лежит алгоритм анализа локальных признаков, разработанный в Университете Рокфеллера. Одна коммерческая компания в Великобритании интегрировала FaceIt в телевизионную антикриминальную систему под названием Mandrake. Эта система ищет преступников по видеоданным, которые поступают с 144 камер, объединенных в замкнутую сеть. Когда устанавливается идентичность, система сообщает об этом офицеру безопасности.
- Еще один лидер рынка систем распознавания лиц, компания Viisage, использует алгоритм, разработанный в МТИ. Коммерческие компании и властные структуры во многих американских штатах и в ряде других стран используют систему компании Viisage вместе с идентификационными удостоверениями, например, водительскими правами.
- В системе распознавания лиц TrueFace компании Miros используется технология нейронных сетей, а сама система применяется в комплексе выдачи наличных денег корпорации Mr.Payroll и установлена в казино и других увеселительных заведениях многих штатов.
Новые приложения
Спектр задач, решаемых системами распознавания лиц, уже не ограничивается верификацией личности и наблюдением. Все больше приложений используют распознавание лиц как первый шаг к интерпретации действий человека, его намерений и поведения. Иначе говоря, к реализации тех возможностей, которые будут играть центральную роль в интеллектуальной среде следующего поколения. Многие действия и особенности поведения человека поддаются интерпретации только в том случае, если идентифицируются его личность и окружающие его люди. Примеры - распознавание постоянного покупателя магазина, наблюдение за поведением пациентов, интерфейсы командного управления на военных и промышленных объектах. В каждом из этих приложений информация о личности человека дает машине те базовые знания, без которых невозможна правильная интерпретация количественных показателей или результатов научных наблюдений, связанных с теми или иными действиями человека.
Распознавание лиц для интеллектуальных сред
Сегодня ведутся самые интенсивные исследования [1,2] в области создания интеллектуальных систем - визуальных, звуковых и осязательных интерфейсов в различных средах: жилая комната, автомобиль или офис. Ключевая задача этих приложений - оснастить машину средствами восприятия, которые сделают естественным общение компьютера с человеком. Машина сможет узнавать человека, будет помнить его пристрастия и свойства характера, понимать, на что он в данный момент смотрит, интерпретировать его слова, жесты и даже подсознательные намеки, например, изменения интонации или определенные телодвижения. Сейчас изучается возможность применения таких устройств в медицине, индустрии развлечений и для организации коллективной работы.
Средства распознавания выражений лиц взаимодействуют с другими элементами интеллектуальной среды. Интеллектуальная система должна знать, например, раздражен ли пользователь, потому что информация поступает слишком медленно или, наоборот, он приведен в замешательство тем, что она получена слишком быстро. Анализ выражения лица дает некоторые зацепки для определения различных состояний человека. Сегодня основные усилия разработчиков направлены на создание средств распознавания выражений, не зависящих от личности человека. В выражениях лиц разных людей, принадлежащих разным культурам, можно найти общие черты (если только это не самые страшные гримасы). Однако необходимо уметь анализировать нормальное, спокойное состояние человеческого лица, а оно для разных людей всегда разное. До сих пор исследования возможностей распознавания выражений человеческих лиц ограничивались распознаванием нескольких дискретных состояний, а не анализом всего спектра выражений вместе с их едва уловимыми оттенками. Для того чтобы система выполняла действительно эффективный анализ выражений, она должна научиться распознавать конкретного человека и уметь настраивать на него свои параметры.
Носимые системы распознавания
Если разместить компьютер, камеру, микрофон или другие сенсорные устройства на одежде человека, они станут воспринимать мир не с пассивной точки зрения, а как активные наблюдатели [3]. Носимые устройства адаптируются к конкретному пользователю, который начинает применять их гораздо активнее и более естественно. Носимые компьютеры - быстро развивающаяся область, и совсем недавно в рамках IEEE CS был образован самостоятельный технический комитет, который будет заниматься этой проблемой. Так что вскоре мы сможем наблюдать подъем интереса к такой почти неисследованной сфере, как интерпретация изображений носимым компьютером - изображений, видимых с точки зрения активного наблюдателя.
Распознавание лиц - такая же составная часть носимых систем, как вспомогательные средства памяти (memory aid) и контекстные системы (context-aware system). Поэтому в будущем многие средства распознавания будут интегрироваться в одежду и различные аксессуары. Представим себе, например, что вы носите очки со встроенной камерой. Тогда программная система распознавания лиц поможет вам вспомнить стоящего перед вами человека, просто тихонько подсказав вам его имя. В Американской армии испытывают такие устройства, предлагая их солдатам, проходящими службу в Боснии. Аналогичные исследования проводятся в Университете Центра здоровья будущего, где такие устройства намерены применять при лечении болезни Альцхаймера (http://wearebles.www.media.mit.edu/projects/ wearebles, http://www.futurehealht.rochester.edu).
Что ждет нас в будущем
Для того чтобы современная система распознавания лиц работала безупречно, необходимо выполнить несколько важных условий, например, расположить человека лицом к камере при соответствующем освещении. Существует множество самых разнообразных ситуаций, в которых все известные сегодня алгоритмы распознавания лиц перестают работать, а люди могут и должны узнавать друг друга. Следующее поколение систем распознавания должно научиться идентифицировать человека в реальном времени и в средах со значительно меньшим числом ограничений.
Полагаем, системы идентификации, способные нормально работать в естественной среде - в условиях помех и при изменяющемся освещении - не могут базироваться на использовании какой-то одной категории опознания личности - весьма важна возможность анализа по разным категориям. Технологии для интеллектуальной среды не должны быть навязчивыми и должны предоставлять пользователю свободу действий. Если говорить о носимых системах, то от их чувствительных элементов требуются малые размеры, низкое энергопотребление и способность легко закрепляться на одежде. Учитывая эти требования, имеются все основания предположить, что системы со средствами распознавания лиц и голоса имеют наибольший потенциал для широкого применения.
Современные камеры и микрофоны, очень маленькие и легкие, без труда интегрируются в носимые системы. Аудио- и видеосистемы распознавания имеют важное преимущество - они используют для опознания те же категории, что и человек. Наконец, результаты последних исследований показывают, что системы персональной идентификации, основанные на анализе аудио- и видеоинформации, способны обеспечить высокую степень распознавания без размещения пользователя в строго контролируемой обстановке [12].
Интеллектуальные среды призваны создать такие условия, в которых компьютеры и другие машины из неодушевленных предметов превращаются в ваших полезных помощников. Технологии распознавания лиц, значительно эволюционировавшей за последние 20 лет, принадлежит важная роль в достижении этой цели. Но для того чтобы будущие системы распознавания лиц могли широко применяться в интеллектуальных средах, их нужно научить взаимодействовать с пользователем, не создавая ему неудобств, и привести в соответствие людским представлениям о том, в каких условиях возможно опознание. Это означает, что будущие интеллектуальные среды должны использовать те же категории распознавания, что и люди, и иметь примерно те же самые ограничения. В этом направлении продолжатся самые серьезные исследования, но уже сейчас ясно, что поставленные цели вполне достижимы.
Танзим Чаудхари (tanzeem@media.mit.edu) — аспирант Media Labs МТИ. В сферу его интересов входят распознавание лиц, многофакторная идентификация личности в реальном времени и анализ выражений лиц. Алекс (Сэнди) Пентланд (sandy@media.mit.edu) — глава лаборатории Media Laboratory Масачуссетского технологического института, профессор Toshiba и содиректор Центра здоровья будущего. Пентланд является одним из основателей IEEE Face and Gesture Recognition Conference и Технического комитета по носимым информационным устройствам IEEE Computer Society.
Литература
1. M. Weiser, «The Computer for the 21st Century», Scientific American, Mar. 1991, pp. 66-76
2. A. Pentland, «Smart Rooms, Smart Clothes», Scientific American, Apr. 1996, pp.68-76
3. A. Pentland, «Wearable Intelligence», Scientific American, Apr. 1998, pp. 90-95
4. T. Kohonen, Self-Organization and Associative Memory, Springer-Verlag, Berlin, 1989
5. M. Kirby and L. Sirovich, «Application of the Karhunen-Loeve Procedure for Characterization of Human Faces», Trans. IEEE Pattern Analysis and Machine Intelligence, Jan. 1990, pp. 103-108
6. M. Turk and A. Pentland, «Eigenfaces for Recognition», J. Cog. Neuroscience, Jan. 1991, pp. 71-86
7. P. Phillips et al., «The Feret Database and Evaluation Procedure for face Recognition Algorithms», Image and Vision Computing, May 1998, pp. 295-306
8. L. Wiskott et al., «Face Recognition by Elastic Bunch Graph Matching», Trans. IEEE Pattern Analysis and Machine Intelligence, July 1997, pp. 775-779
9. K. Etemad and R. Chellapa, «Discriminant Analysis for Recognition of Human Face Images», J. Optical Soc. of America, pp. 1724-1733
10. B. Moghaddam and A. Pentland, «Probabilistic Visualreconition for Object Recognition», Trans. IEEE Pattern Analysis and Machine Intelligence, July 1997, pp. 696-710
11. P. Penev and J.A tick, «Local Feature Analysis: A General Statistical Theory for Object Representation», Network: Computation in Neural Systems, Mar.1996, pp.477-500
12. T. Choudhury et al., «Multimodal Person Recognition Using Unconstrained Audio and Video», Proc. 2nd Conf. Audio- and Video-Based Biometric Person Authentication, Univ. of Maryland, College Park, Md., 1999, pp. 176-181
Face recognition for smart environments, Alex (Sandy) Pentland, Tanzeem Choudhury. IEEE Computer, February 2000, pp. 50-55, Reprinted with permision, Copyright IEEE CS, 2000. All Rights Reserved.