Классификация объектов дает возможность понять, что именно движется в зоне наблюдения, их идентификация помогает определить степень угрозы, а распознавание ситуаций — выяснить, что же происходит на самом деле.

 

По прогнозам, в ближайшие годы мировой рынок видеоаналитики будет расти примерно на 30% ежегодно, что в 2,5 раза превосходит темпы роста рынка видеонаблюдения в целом. А в России можно ожидать и превышения этих показателей. Его стимулом станут вертикальные рынки. Так, например, финансирование государством проектов по безопасности позволяет осуществлять масштабные разработки и быстрое внедрение подобных систем.

Чаще всего видеоаналитика отождествляется со средствами распознавания лиц и автомобильных номеров, однако область ее применения намного шире. В числе наиболее востребованных функций — детектирование движения и оставленных предметов, отслеживание траекторий движения, многокамерный трекинг, классификация и идентификация объектов, распознавание ситуаций, анализ поведения людей и т. д. «Если с первыми из двух перечисленных задач обычная видеоаналитика справляется достаточно успешно, с решением третьей также более или менее все в порядке, то с многокамерным трекингом объектов возникают определенные трудности: идентификация объектов в одних случаях выполняется удовлетворительно, в других — плохо. А последние две задачи толком еще не решены», — рассказывает Алексей Кадейшвили, технический директор компании «Вокорд» (см. Таблицу 1).

Таблица 1. Задачи 2D-видеоналитики и успехи в их решении.
Таблица 1. Задачи 2D-видеоналитики и успехи в их решении.

 

Осенью 2013 года в рамках ежегодного форума «All-over-IP» состоялась четвертая конференция «Интеллектуальное видео». Тема интеллектуального видеонаблюдения обсуждалась и на традиционном весеннем форуме «Бизнес-Видео – 2014», организованном издательством «Открытые системы» и «Журналом сетевых решений/LAN». На этом популярном отраслевом мероприятии вот уже несколько лет собираются ИТ-специалисты из различных компаний, в том числе представители системных интеграторов и производителей аппаратных и программных решений.

ПОИСК ОБЪЕКТОВ И ОБНАРУЖЕНИЕ ЛЮДЕЙ

Предварительная обработка изображений — первый этап аналитики. Это может быть вычитание одного кадра из другого для детектирования движения, выявление изменений в оптическом потоке, нахождение контуров и т. д. Второй этап — определение местонахождения объекта, третий — его классификация. На следующей стадии может анализироваться поведение объекта или выполняться его идентификация, например распознавание лица человека или номера автомобиля.

Рисунок 1. Современные подходы к задаче обнаружения и трекинга людей: выделение людей на изображении и их прослеживание по зонам наблюдения (tracking by detection), построение модели фона и поиск людей только в движущихся областях, которые еще не участвуют в трекинге.
Рисунок 1. Современные подходы к задаче обнаружения и трекинга людей: выделение людей на изображении и их прослеживание по зонам наблюдения (tracking by detection), построение модели фона и поиск людей только в движущихся областях, которые еще не участвуют в трекинге.

Задачи идентификации лиц и автомобильных номеров и критерии успешного достижения желаемых результатов в этом случае достаточно четко формулируются и хорошо решаются. С этими задачами, благодаря встроенным функциям видеоаналитики, вполне могут справиться сами камеры. Так, например, в IP-камерах Sony шестого поколения появилась функция идентификации лиц. Как утверждает Михаил Зикеев, менеджер по продукции систем видеонаблюдения Sony, уже в ближайшее время в перспективных камерах седьмого поколения можно ожидать дальнейшего совершенствования функции распознавания лиц (уменьшения количества ложных срабатываний) для повышения надежности и скорости последующей идентификации личности при работе с базами данных (например, в бюро пропусков).

Одними из основных целей применения видеоаналитики являются обнаружение и трекинг людей. Традиционный подход состоит в построении модели фона, после чего текущая картинка вычитается из модели (или наоборот). Результаты сегментируются на объекты для дальнейшей обработки — трекинга, детектирования движения и т. д., рассказывает Борис Вишняков, начальник лаборатории анализа динамических сцен ФГУП «ГосНИИАС» (партнера ITV по разработке алгоритмов видеоаналитики). Тем временем наряду с построением модели фона совершенствуются и методы прослеживания (см. Рисунок 1). Первый метод — прослеживание областей движущихся объектов, второй — выделение на изображении людей по данным нескольких наблюдений. Сейчас он модифицирован и называется «фильтром частиц».

На технике накопления и вычитания фона основано большинство методов выделения движущихся объектов. Наиболее популярные — Mixture Of Gaussians (MOG), Kernel Density Estimator (KDE) и Autoregressive Pseudospectrums (ARP). С их помощью можно сегментировать области, где наблюдается движение, однако им свойственны и недостатки: обнаружение всех без исключения движущихся областей (в маску движения попадают волны, ветки, блики и т. д.), высокая чувствительность к подвижному фону и шуму (тряска камеры, поворот) и недостаточная восприимчивость однотонных объектов.

Метод фильтра частиц, отличающийся большей интеллектуальностью, основывается на предсказании положения объекта по траектории и яркостно-цветовым характеристикам: новые области сопоставляются с текущими для построения вероятностной модели, которая позволяет спрогнозировать, окажется ли тот или иной объект в данной области.

Основным современным подходом к обнаружению объектов в сцене (см. Рисунок 2) является распознавание образов по набору отобранных признаков. В основном используются методы HOG, Edgelet и группа методов локальных шаблонов (Local Binary Patterns, LBP; Local Ternary Patterns, LTP; Scale Invariant LBP, SILBP; Scale Invariant LTP, SILTP). Метод, в рамках которого используются гистограммы ориентированных градиентов (Histogram of Oriented Gradients, HOG), основывается на контуре объекта и построении градиентов, что позволяет отличать человека от других объектов. Edgelet разработан специально для детектирования людей: с помощью фильтров строится контур объекта, из этого контура извлекается гистограммно-ориентированный градиент, затем гистограммы нормализуются и используются для создания вектора признаков.

Рисунок 2. Распознавание объектов на видео.
Рисунок 2. Распознавание объектов на видео.

 

HOG — самый популярный метод обнаружения людей на изображении — в разноконтрастных сценах работает плохо. В этой ситуации на выручку приходит трехмерная разметка сцены с сегментацией, помогающая выявлять объекты в конкретных областях. Улучшить качество работы HOG можно за счет обучения системы распознаванию человека по отдельным частям тела (руки, ноги, туловище, голова), что уменьшает число ложных срабатываний. Кроме того, возможно построение трехмерной модели человека.

В методах, основанных на эджлетах (Edgelet — отрезок прямой или кривой линии), тоже используется обучение, которое при распознавании людей производится по плечевому поясу и туловищу. Эджлеты размером 4–12 пикселей — отрезки прямых, дуги окружностей, симметричные отрезки прямых и симметричные дуги окружностей — сопоставляются с контурами на изображении. При должном обучении обеспечиваются достаточно хорошие результаты распознавания. Для повышения точности применяется модификация эджлетов на основе LBP, позволяющая расширить вектор признаков. В результате вероятность распознавания человека по его плечевому поясу увеличивается на 20–25%. Эти методы продолжают развиваться.

Подходы к обнаружению людей на изображениях методами машинного зрения имитируют восприятие сцены человеком. Такие алгоритмы требуют значительных вычислительных ресурсов, поэтому нуждаются в существенной доработке и более жестком отборе признаков при приемлемой вероятности распознавания. Их можно применять не только в системах безопасности, но и для подсчета людей в группе/очереди (для этого нужен отдельный детектор туловища, плечевого пояса и головы), а также при исследовании потоков движения людей.

В масштабных системах видеонаблюдения востребованы технологии поиска по видеоконтенту для упрощения формирования запросов. Такие решения создают не только крупные зарубежные вендоры, но и российские разработчики. В их числе — компания Macroscop, которая вот уже четыре года совершенствует соответствующую поисковую машину. Как рассказал Артем Разумков, генеральный директор Macroscop, результаты получаются достаточно точными. В запросах можно указывать разные параметры: место объекта в кадре, его размер (с учетом перспективы), пропорции, вход в заданную зону, пересечение линии, трекинг (ведение объекта в кадре и построение его траектории). Например, трекинг позволяет установить людей, направляющихся в нужную сторону, или отделить въезжающие машины от выезжающих. По такому принципу можно вести подсчет посетителей.

В Macroscop разработали технологию индексирования, позволяющую классифицировать объекты и сохранять их «приметы» для поиска в архиве. Например, можно найти всех людей в светлых брюках и синих куртках, пересекающих какую-то линию в заданном направлении. В компании работают над тем, чтобы запросы можно было задавать на естественном языке (голосовые запросы с распознаванием речи). Поиск по приметам применим не только к архивам, но и позволяет перехватывать объекты в реальном времени — например, отслеживать автомобили красного цвета заданного размера. В системах масштаба города данная функция может быть очень полезной.

МНОГОКАМЕРНАЯ ВИДЕОАНАЛИТИКА И МЕЖКАМЕРНЫЙ ТРЕКИНГ

Многокамерная аналитика с сопровождением объекта несколькими камерами позволяет снизить общее число тревожных сигналов (особенно в месте перекрытия зон, контролируемых разными устройствами), а также привязать событие к карте местности, помогая оператору лучше ориентироваться в происходящем. Однако для этого требуются высокое качество калибровки и тщательная привязка камер к местности, иначе возможны большие погрешности в определении положения объектов. Потолочная камера достаточно точно определяет позицию объектов, но при горизонтальном наблюдении степень погрешности может составить 50%.

Многокамерная видеоаналитика призвана определять глобальные координаты объекта исходя из его экранных координат, объединять траектории от разных камер по их пространственной и временной корреляции, сглаживать и экстраполировать полученные траектории, однако при интерпретации размеров объекта возникают сложности (потолочная и настенная камеры определяют их по-разному). По данным компании «Синезис», для потолочных камер точность достигает 75%, для уличных — 50%, при этом результаты зависят от расположения камер (степени перекрытия их зон видимости). Для идентификации человека на разных камерах, обнаружения и трекинга людей можно использовать методы машинного зрения.

Потолочная камера (см. Рисунок 3) позволяет достоверно распознать человека (в том числе неподвижного), его положение, траекторию и скорость движения, но размер контролируемой зоны ограничен высотой подвеса камеры. Для идентификации используется ограниченный набор признаков, а при образовании плотных скоплений людей возможны ошибки. Еще один недостаток — неудобство визуального контроля со стороны оператора.

Рисунок 3. Потолочная камера позволяет определить количество человек в помещении, выявить их нахождение в запрещенной зоне и движение в запрещенном направлении, понять, кто с кем взаимодействует.
Рисунок 3. Потолочная камера позволяет определить количество человек в помещении, выявить их нахождение в запрещенной зоне и движение в запрещенном направлении, понять, кто с кем взаимодействует. 

 

В отличие от потолочной, обзорная (настенная или уличная) камера обеспечивает достаточно обширную зону наблюдения и большое количество идентифицирующих признаков, делает визуальное восприятиятие более удобным, но выделение отдельного человека может быть осложнено из-за перекрытия объектов, трудностей многокамерного трекинга, ошибочного определения положения в кадре.

В разработке Macroscop при межкамерном трекинге система классифицирует объект, выявляя его особенности, и пытается найти на соседних камерах объекты с аналогичными приметами. Это еще не автоматический, а всего лишь автоматизированный режим: оператор должен подтвердить правильность выделения объекта, поскольку риск ошибки, особенно при большом числе объектов (например, людей), весьма велик. Такие возможности полезны не только в системах безопасности. Например, это позволяет понять, как покупатель перемещается по торговому залу магазина, и выявить шаблоны его поведения. Для анализа не требуется полностью декодировать видео, что снижает требования к ресурсам. Компьютер с процессором Intel Core i5 может обрабатывать видео, передаваемое сотней камер с разрешением 1,3 Мпикс при 12 кадрах в секунду.

В масштабных и распределенных системах качество работы камер видеонаблюдения необходимо тщательно контролировать. Компания «Метротек» разработала оборудование, позволяющее осуществлять мониторинг десятков тысяч таких устройств, установленных на улицах Москвы. От производства до внедрения ее прибора BERcut-MX для контроля за качеством видеосигнала, адаптированного к данной системе, ушло всего четыре месяца. Зонд позволяет определить, почему недоступна камера и есть ли в этом вина оператора. BERcut, имеет по два порта 1GbE и 10GbE, консольный выход для выгрузки данных на устройство обработки. Он контролирует качество сигнала и вариацию задержки, анализирует поток RTP (на уровне протокола), отслеживает потери кадров и другие физические параметры потока, доступность камеры (см. Рисунок 4).

Рисунок 4. В варианте 1U устройство BERcut-MX содержит четыре независимых модуля, каждый способен обрабатывать трафик со скоростью 20 Мбит/c. Такое решение установлено в компании «Акадо». Оно контролирует работу 40 тыс. камер.
Рисунок 4. В варианте 1U устройство BERcut-MX содержит четыре независимых модуля, каждый способен обрабатывать трафик со скоростью 20 Мбит/c. Такое решение установлено в компании «Акадо». Оно контролирует работу 40 тыс. камер.

 

BERcut-MX осуществляет предобработку зеркалируемых на устройство гигабитных потоков трафика (включая анализ протоколов) и его фильтрацию, после чего информация поступает для обработки на сервер, генерирующий отчеты о состоянии системы. При необходимости устройство можно адаптировать к требованиям конкретного проекта.

ПОДСЧЕТ ЛЮДЕЙ

Подсчет числа людей необходим не только в целях общественной безопасности. Его можно использовать для оценки числа посетителей, регулирования количества открытых касс, планирования мест установки рекламных носителей. Системы подсчета людей все чаще применяются организациями розничной торговли — на смену прежним инфракрасным горизонтальным или термокамерам приходят видеосчетчики, которые, по словам Сергея Якушева, директора департамента информационных технологий сети розничных магазинов «Алеф», в корне поменяли рынок систем подсчета посетителей, вытесняя все остальные решения.

Их достоинства — малый объем монтажных работ, отсутствие помех для персонала и покупателей, максимальная физическая защита от преднамеренного искажения данных, простота

в настройке, возможности использования в смежных областях (безопасность, видеоаналитика). В каждом сегменте розничной торговли (магазины, торговые сети и пр.) применяются свои системы видеоподсчета. Они могут использовать аналитическое ПО и программы для настройки оборудования, предусматривать интеграцию со сторонним программным обеспечением и внедрение дополнительных функций («траектория движения», поведение покупателей, «горячие» и «холодные» зоны, оптимальная выкладка товара). Однако во многих случаях достаточно дорогое аналитическое ПО не требуется, а возможность самостоятельной установки системы позволяет сэкономить значительные средства.

В зависимости от ракурса съемки и плотности толпы могут использоваться разные сценарии подсчета людей. Первый — плотная толпа. Такая ситуация характерна для мероприятий (митингов, концертов), а также часов пик, когда формируются плотные людские потоки. В этом случае применяются методы подсчета на основе занимаемой толпой площади с учетом перспективы и «пестроты» текстуры. При достаточной величине объектов и их движении можно задействовать методы на основе кластеризации траекторий независимо отслеживаемых точек (синхронные траектории с высокой степенью вероятности относятся к одному объекту).

Как сообщил Вадим Конушин, генеральный директор компании «Технологии видеоанализа», последние методы позволяют определять людей с точностью до 94%. При этом допускаются разные ракурсы и конфигурации сцены. С помощью данного метода можно оценивать количество проходящих людей, но он плохо работает с малоподвижными людьми, к тому же для него характерна низкая скорость — для обработки одного кадра требуется более 10 сек. Если размер лица слишком мал, а объекты значительно перекрываются, анализ затрудняется, да и толпа уже не разбивается на несколько небольших групп.

Второй сценарий — разреженный поток людей, например на улицах или в крупных магазинах. Для данной ситуации характерны слишком маленькие изображения лиц, неплотные группы людей и обширные перекрытия внутри групп. В этом случае применяются методы на основе вычитания фона, которые при невысокой скорости характеризуются возможностью работы с неподвижными и малоподвижными компонентами объектов (их должно быть не более 10). Средняя ошибка составляет 1,2 человека (в сцене от 11 до 45 человек).

Если у изображения высокое разрешение, а перекрытия невелики, подсчет людей может вестись путем обнаружения с сопровождением между кадрами (см. Рисунок 5). Такой сценарий используется в магазинах при оценке количества покупателей и длины очереди, когда камеру можно разместить у входа в помещение или у кассы, однако его точность (достаточная для данного применения) зависит от ракурса и качества трекинга.

Рисунок 5. Подсчет людей через обнаружение и их сопровождение между кадрами.
Рисунок 5. Подсчет людей через обнаружение и их сопровождение между кадрами.

 

Зенитное (потолочное) расположение камеры способствует большей точности, повышает скорость обработки информации, упрощает методы подсчета. В этом случае можно применять методы на основе оптического потока, а также поиска и сопровождения головы человека. Их заявленная точность превышает 95%, а ошибка (когда за людей принимаются другие объекты) составляет около 10–20% (в сторону завышения). Это достаточно хорошая точность. Проблемы могут возникнуть, если существенную часть проходящих в контролируемой зоне людей составляет персонал либо посетители с тележками, большими сумками или коробками, а кроме того, если рядом с камерой стоит охранник, кто-то курит, говорит по телефону или ждет кого-то.

ВЫЯВЛЕНИЕ АСОЦИАЛЬНОГО ПОВЕДЕНИЯ

Еще одно применение видеоаналитики — обнаружение асоциального поведения. Драки, потасовки, хулиганское поведение можно выявлять по всплескам активности. Для этого проводится анализ истории движения объектов (людей), выявление общего уровня всплесков и неравномерностей движения, бега. На основе собранной статистики выносится решение о нестандартном поведении. При этом для уменьшения числа ложных срабатываний необходима фильтрация событий. Для обучения системы используются видеоролики.

Анализ поведения обычно начинается с отслеживания траектории объекта, например нескольких лиц в кадре. Затем анализируется допустимость этой траектории для данного объекта. Можно попытаться идентифицировать объект. Однако «детектор драк» практически не имеет успешных реализаций, поскольку такую задачу сложно сформулировать: одно и то же поведение людей может в одной ситуации означать драку, в другой — встречу старых друзей, рассказывает Алексей Кадейшвили. К тому же система должна учитывать контекст поведения, чтобы определить его адекватность. Однако решить подобную задачу средствами видеоаналитики все же можно — необходимо ее сегментировать.

Обнаружение асоциального поведения средствами видеоаналитики пока что остается проблематичным, подтверждает Игорь Ермолаев, начальник отдела видеоаналитики компании «Синезис». Хотя система автоматически подстраивается к общему уровню движения в кадре, для ее качественной работы оно должно быть достаточно равномерным (без наличия автомобилей и крупных движущихся объектов), а при отсутствии резких движений выявить тревожную ситуацию сложно. Тем не менее при использовании потолочных камер точность обнаружения асоциального поведения составляет примерно 90% (10% — ложные срабатывания), а для уличных камер — 80%.

В любой системе видеонаблюдения важны не только точность обнаружения событий, но и процент ложных срабатываний. Например, при 10-процентном показателе на 10 тыс. событий будет приходиться тысяча ложных срабатываний. Пользоваться такой системой невозможно, особенно при большом числе камер, поэтому всегда нужно принимать во внимание вероятность ложного срабатывания.

УДАЛЕННОЕ ВИДЕОНАБЛЮДЕНИЕ

Чтобы быть в курсе происходящего на контролируемом объекте, можно применять и более простые методы. Все более популярным становится видеонаблюдение с использованием мобильных устройств, однако пользователей не всегда устраивает «живое видео», рассказывает Олег Гришанин, коммерческий директор компании «СпецЛаб», которая давно занимается трансляцией видео на мобильные устройства. Срабатывание тревоги при любом движении в кадре только раздражает.

«СпецЛаб» предлагает собственное решение для удаленного видеонаблюдения. Вся запись разбивается на события, поэтому видео, не представляющее интереса, можно игнорировать. Да и объем видеоархива уменьшается в десятки тысяч раз. Суточный архив можно просмотреть за пять минут в удобное время. Для этого компания разработала мобильное приложение с удобным интерфейсом. Видео автоматически загружается на устройство, а тревожные события сопровождаются звуковым сигналом и/или вибрацией. При таком варианте видеонаблюдения человек может просмотреть видео не тогда, когда на контролируемом объекте что-то происходит, а когда может это сделать.

Клиентское приложение авторизуется на удаленном сервере, где осуществляется отбор видеофрагментов с помощью видеосемантики — разбивки того, что происходит в поле зрения камер, на логические сюжеты с выбором ключевых кадров, объясняющих смысл этих сюжетов. Видеосемантика, в отличие от целого ряда функций видеоаналитики, реально работает даже в толпе, подчеркивают в «СпецЛаб». Система фиксирует нестандартное поведение людей перед камерами и оставляет ключевые кадры на экране до устаревания информации. Важные события не исчезают с экрана, если на них еще не обратили внимания.

Между тем есть целый ряд задач, где и сложных методов видеоаналитики недостаточно — приходится обращаться к алгоритмам (о них уже говорилось выше) и системам машинного зрения.

МАШИННОЕ ЗРЕНИЕ И ПРОМЫШЛЕННЫЕ КАМЕРЫ

Система машинного (технического) зрения — это набор программно-аппаратных средств для захвата, обработки и хранения изображения объектов или видеоряда, полученного в видимом или невидимом (ИК) спектре либо иным способом. Система IP-видеонаблюдения — частный случай системы машинного зрения, поясняет Максим Сорока, генеральный директор компании «ВиТэК». По способам обработки информации они практически не отличаются. Однако камеры машинного зрения позволяют вывести видеоанализ на новый уровень. Как правило, они применяются в промышленности для визуального контроля качества и комплектации, управления машинами.

Наиболее интересная область использования интеграции с IP-видеосистемами — идентификация и учет. «Одно из основных отличий систем машинного зрения состоит в том, что сцена, как правило, фиксированная. Мы знаем, что ищем, и нацелены на определение параметров объекта, его геометрических и цифровых характеристик. Поэтому идентификация и учет — именно та область, где пригодятся преимущества машинного зрения, — считает Максим Сорока. — Эти системы предоставляют на порядок более подробную информацию об объекте, чем IP-камеры. Можно получать численные оценки и применять классические методы идентификации объектов».

В машинном зрении любая установленная камера требует калибровки, а разрешение камер может достигать 70 Мпикс. Разрешение и скорость (сотни кадров в секунду с разрешением HD) — ключевые параметры, по которым камеры машинного зрения превосходят IP-камеры. Первые не заменяют вторых, а предоставляют больше данных и возможностей для анализа. Это позволяет использовать камеры машинного зрения в краш-тестах, для анализа быстро протекающих процессов, в спорте и пр. В них применяется широкий спектр матриц и интерфейсов. Линейные камеры машинного зрения позволяют получать линейную «развертку» объектов.

Для камер машинного зрения имеется широкий выбор средств разработки ПО (это не «коробочный продукт»). С их помощью можно измерять и идентифицировать объекты самых сложных форм, подсчитывать изделия с заданными параметрами, собирать статистику.

Матричные камеры обеспечивают съемку с разрешением 71 Мпикс со скоростью 3 кадра в секунду, с разрешением HD (1920×1080) — более 340 кадров в секунду, VGA (640×480) — 600 кадров в секунду. Линейные камеры имеют разрешение 2–12 тыс. пикселей и скорость до 140 тыс. кадров в секунду. Иначе говоря, по своим возможностям камеры машинного зрения на 1–2 порядка превосходят IP-камеры, но они значительно дороже и используют дорогую оптику.

Технологии машинного зрения позволяют гибко манипулировать разрешением и скоростью. Одна и та же камера дает возможность выбирать эти параметры. Выбор оптики значителен, но коррекция оптических искажений требует сложных алгоритмов. Камеры машинного зрения можно с выгодой использовать для распознавания лиц, малых объектов или объектов, находящихся в широком поле зрения, — для решения тех задач, с которыми плохо справляются камеры IP-видеонаблюдения. Они передают на порядок больше информации, что предъявляет особые требования к интерфейсам камер и сетям передачи данных, поэтому IP-камеры не могут их заменить. Еще одно интересное направление, позволяющее получить больше информации о наблюдаемом объекте, — видеоаналитика 3D.

ОТ 2D К 3D

При наблюдении за трехмерным миром с помощью 2D-камеры теряется информация, необходимая для видеоанализа. «Причина неудач 2D-аналитики в том, что мир трехмерный, а получаемое изображение двухмерное. Недостаток информации восполняется гипотезами и предположениями, которые, как подтверждают известные оптические иллюзии, не всегда оправдываются, — поясняет Алексей Кадейшвили. — Описание трехмерных объектов в терминах двухмерных проекций сложно и громоздко, поэтому двухмерная видеоaналитика зачастую с трудом справляется даже с относительно простыми задачами, например с идентификацией объектов».

Естественный шаг — переход к трехмерному видеонаблюдению. Известно несколько способов получения трехмерного изображения. Один из них, лазерное сканирование, занимает довольно продолжительне время — десятки минут, поэтому для видеонаблюдения за людьми не подходит. Другой метод — структурированная подсветка в виде горизонтальных линий и анализ искривления этих линий (как в приставке Kinect). Недостатки — малая дальность и невозможность работы на солнце. Третий способ основан на факте конечности скорости света — измеряется время отражения света от объектов на разном расстоянии. Этот перспективный метод сейчас активно развивается, но у него есть серьезные ограничения, прежде всего связанные с небольшим расстоянием до объекта, который должен освещаться активной подсветкой.

В компании «Вокорд» занимаются методом стереоскопии, позволяющим реконструировать объекты реального мира на основе анализа синхронных снимков. Для этой цели уже разработана стереокамера: система генерирует плотное «облако точек», которое можно анализировать, благодаря чему, например, становится возможным анализ лиц в 3D. Поскольку объем собираемой информации существенно больше, чем в двухмерном изображении, точность распознавания значительно повышается.

Источники проблемы распознавания лиц — неверный ракурс (при ракурсе 15% ни один из существующих алгоритмов не способен распознать лицо), мимика, макияж, усы и борода, очки. Трехмерное машинное зрение помогает решить многие из перечисленных проблем. Для видеоаналитики используются 3D-модели объектов реального мира. Знание абсолютных координат и размеров объектов упрощает их сегментацию и выделение, дает возможность, например, отделить объект от фона или разделить два объекта в кадре. Эффективнее решается задача идентификации объектов и повышается достоверность распознавания лиц (по 3D-модели лица) в разных ракурсах (см. Рисунок 6). По данным трехмерной траектории можно сделать выводы о поведении объекта.

Рисунок 6. Пример 3D-реконструкции по видеоряду.
Рисунок 6. Пример 3D-реконструкции по видеоряду.

 

3D-система позволяет построить объемную модель лица и развернуть это синтетическое изображение для точного распознавания с использованием базы 2D-лиц. Для работы системы требуется ПК с процессором Intel Core i7 и двумя графическими ускорителями. Цикл обработки занимает 2–3 сек. Такая система может стать, например, эффективным помощником в борьбе с правонарушениями. «2D-видеоанализ приближается к границам своих физических возможностей. Следующий большой шаг в видеоанализе — переход к 3D», — уверен Алексей Кадейшвили.

У видеоаналитики пока еще много ограничений, не всегда понятных заказчикам. Отсюда и ложные ожидания. Между тем появляется все больше мощных и гибких систем видеоаналитики, позволяющих решать различные задачи. Они ориентированы на разные сегменты рынка и могут не только обеспечивать безопасность, но и повышать эффективность работы организаций — например, подсчитывая число посетителей и/или удаленно контролируя операции на объектах. А обработка и анализ видеоархивов дают возможность быстро извлекать необходимую информацию и помогают в расследовании инцидентов. С совершенствованием аналитических алгоритмов и увеличением вычислительных мощностей процессоров, применяемых в серверах и камерах видеонаблюдения, возможности таких инструментов значительно расширятся.

Сергей Орлов — ведущий редактор «Журнала сетевых решений/LAN». С ним можно связаться по адресу: sorlov@lanmag.ru.