Интеллектуальные инструменты для работы с видеоконтентом становятся все более востребованными. Тенденцию диктует потребность компаний в оперативном создании продуктов. Эксперты «Газпром ИД» разработали решение Video Tagging System для комплексного анализа видео. Сервис позволяет за считанные секунды находить необходимые фрагменты по различным критериям — от определенных фраз до количества персон в кадре. Об инструментах, призванных трансформировать процесс создания контента и задать новые стандарты в медиаиндустрии, рассказывает Руслан Долгополов, руководитель продукта Video Tagging System и номинант на премию Data Award.

- Как появился ваш проект?

История началась с идеи использования компьютерного зрения для автоматической разметки видео. Мы провели исследование и поняли, кому такая технология может быть полезна. Таким образом вышли на телеканал «Пятница», чтобы решить для него важную задачу — создание промороликов без просмотра контента.

Мы приступили к разработке продукта, ориентируясь на потребности канала. Каждый спринт заканчивался демонстрацией результатов — для нас было важно сохранять уверенность в том, что мы движемся в правильном направлении и соответствуем ожиданиям заказчика. У нас появлялись и другие заказчики — крупные телеканалы, онлайн-кинотеатры, радиостанции. Продукт постепенно развивался, в соответствии с запросами рынка появлялись новые функции.

В 2024 году возникла новая волна интереса к созданию коротких видео. Мы приняли этот вызов и решили автоматизировать процесс, чтобы повысить уровень персонализации и в итоге сделать наш инструмент максимально эффективным. Так проект эволюционировал от решения задачи для одного заказчика до масштабируемой технологии, которая отвечает всем актуальным запросам индустрии.

- Какие проблемы вы стремились решить?

Мы пытались революционизировать процесс создания видеоконтента за счет автоматизации рутинных задач, чтобы значительно сократить затраты ресурсов, повысить эффективность работы и сосредоточить усилия креативных команд на наиболее важных задачах. Получилось инновационное решение Video Tagging System, которое сочетает в себе передовые технологии анализа видео и автоматизации монтажа.

- Что собой представляет решение?

Обеспечение мгновенного доступа к нужным сценам в тысячах видео по заданным параметрам (ведущий, действие, план, картинка, фраза) существенно ускоряет процесс подготовки материала для монтажа. Интеграция с популярными редакторами — удобная выгрузка разметки и готовых фрагментов в профессиональные программы для монтажа — упрощает создание промо-роликов и другого контента. Автоматическая генерация субтитров в строгом соответствии со стандартами ГОСТ экономит время и помогает избежать штрафов. Автоматическое формирование коротких вертикальных видео (shorts) — умный подбор сцен, монтаж и добавление субтитров за считанные секунды — это идеальное решение для создания контента, который вызывает большой интерес аудитории в социальных сетях.

- А что «под капотом»? Какие технологии и математические механизмы используются?

Сердцем системы является поисковый движок и CV-конвейер. С их помощью мы извлекаем из видео максимум информации. Поисковый движок также обеспечивает быстрый поиск по извлеченным фичам.

Для извлечения информации мы используем широкий спектр ML-моделей — более 15. Нейросетевые модели для идентификации персонажей выделяют ключевые моменты с участием главных героев. Алгоритмы для извлечения текста из кадров распознают надписи — это важная функция для модерации и поиска релевантных сцен. Для детекции границ сцен мы используем комбинацию из классических методов и нейросетевые подходы для автоматического разделения видео на смысловые фрагменты. Также превращаем речь в текст с определением спикеров, чтобы анализировать диалоги и контекст. Эмбеддинг палитры и описания кадра необходимы для векторного представления визуального стиля и семантики кадров. С помощью ML-модели распознаем активности: драки, танцы, диалоги и т.д. Детекция кинематографических планов требуется, к примеру, для показа вида с высоты птичьего полета или глаз человека крупным планом – она может использоваться для интеграции рекламы. Детекция, классификация и подсчет объектов в кадре помогает в контекстном поиске.

Результатом обработки видеофайла становится набор эмбеддингов, текстовой информации и метаданных, которые сохраняются в поисковой системе. Поисковая система — это сервис на основе традиционной СУБД PostgreSQL и векторной базы Qdrant. Наша поисковая система уникальна тем, что позволяет совмещать в одном запросе условия для векторной и SQL-баз данных.

Решение реализовано в виде облачного сервиса на платформе Linux под управлением Kubernetes. Kubernetes отвечает за оркестрацию микросервисов, масштабирование под нагрузку и обеспечение отказоустойчивости. Этот стек позволяет нам сохранить баланс между скоростью обработки данных, точностью и масштабируемостью.

- В чем уникальность вашего решения?

Во-первых, оно мультимодальное. Мы используем технологии для анализа и поиска информации в видео по нескольким направлениям: визуальные элементы — сцены и объекты; звук — речь, музыка; текст — субтитры и речь, надписи и логотипы; семантика — смысл запросов и контента (можно найти релевантные материалы даже без точного совпадения ключевых слов). Комплексный подход гарантирует максимальную глубину анализа и точность поиска. Большинство существующих решений не отличаются настолько высоким качеством работы.

Во-вторых, реализация в виде облачного сервиса для анализа и генерации контента делает решение доступным, масштабируемым и удобным. Заказчики загружают видеоматериалы, а система автоматически анализирует, индексирует и предоставляет инструменты для поиска и генерации нового контента. Это избавляет компании от необходимости внедрять сложные и дорогостоящие локальные решения.

Сервис Video Tagging System адаптирован для широкого спектра задач: от поиска конкретных моментов в видео до автоматической генерации коротких роликов. Это делает его универсальным инструментом для медиакомпаний, маркетинговых агентств, образовательных платформ и других организаций, где работа с видеоконтентом играет ключевую роль.

Благодаря использованию современных алгоритмов машинного обучения и нейросетей, наш сервис обеспечивает высокую скорость обработки данных и точность результатов. Кроме того, он легко интегрируется с системами заказчика и может быть адаптирован под определенные бизнес-задачи, без нарушения внутренних процессов.

- Где уже нашло применение ваше решение?

Его активно использует ряд телеканалов и онлайн-кинотеатр. Мы помогаем нашим партнерам создавать промо-контент с помощью гибких инструментов поиска, а также сокращать время при создании субтитров. Оптимизируем продвижение контента за счет создания коротких вертикальных видео.

Мы активно двигаемся в сторону интеграции с российскими сервисами для хостинга и просмотра как классических горизонтальных, так и вертикальных видео. Предоставляем свои разработки не только крупному бизнесу, но и блогерам.

- Каких результатов удалось достичь?

Время подбора материалов сокращено в 20 раз, и теперь команды уделяют больше внимания стратегическим задачам, а не рутинным процессам. Создавать субтитры стало проще благодаря пятикратному сокращению времени процесса, что значительно ускоряет выпуск готового контента и делает его более доступным для аудитории. Генерация коротких роликов теперь занимает в 25 раз меньше времени, что позволяет оперативно реагировать на тренды и увеличивать объемы выпускаемого контента.

На сегодняшний день обработано более 20 тыс. часов видеоматериалов, что демонстрирует способность системы работать с большими объемами данных без потери качества и скорости. Создано 300 тыс. коротких роликов, что подтверждает высокую эффективность инструментов автоматизации и их востребованность в условиях растущего спроса на видеоконтент.

- Как решение может повлиять на развитие бизнеса клиентов?

Дальнейшее внедрение и оптимизация технологии будет способствовать увеличению объема обработки материалов и генерации контента, что приведет к росту охватов и вовлеченности. Мы ожидаем, что сокращение временных затрат на ключевые процессы поможет многим компаниям высвободить ресурсы для креативных и стратегических инициатив. А значит, в итоге укрепить позиции на рынке. Планируется расширение функционала системы, что откроет новые возможности для персонализации контента и повышения его релевантности для целевой аудитории. Ускорение процессов и увеличение объемов контента напрямую влияют на возможности монетизации — через рекламу, подписки или партнерские программы. Это способствует увеличению доходов компаний.

Наконец, закладывается технологическая база для будущих инноваций, таких как внедрение искусственного интеллекта для персонализации и модерации контента, анализа аудитории и прогнозирования трендов. Это открывает новые возможности для роста бизнеса.

- Каково значение проекта для отрасли?

Мы уверены, что наш проект обозначит важный этап в развитии индустрии видеопроизводства — появление инструментов, которые ускоряют процесс создания контента. Мы можем задать новые стандарты.

Устраняется необходимость выполнения трудоемких задач, таких как ручной поиск фрагментов, монтаж и создание субтитров. А значит, специалисты смогут сосредоточиться на творческой работе, что приведет к повышению продуктивности. Появляется возможность быстрого поиска нужных сцен и создания коротких видео. Это особенно важно для медиакомпаний, маркетинговых агентств и брендов, которые работают в условиях жестких дедлайнов и высокой конкуренции. Естественным образом сокращаются расходы на производство контента, минимизируется необходимость привлечения дополнительных ресурсов и специалистов. Это делает производство видео более доступным для малого и среднего бизнеса.

Внедрение технологий ИИ в процесс создания видеоконтента задает новый тренд в индустрии. Это стимулирует компании к разработке и внедрению инновационных решений, что способствует общему технологическому прогрессу в отрасли. Становится проще работать с большими объемами данных — архивами видео, что особенно важно для медиакомпаний и продакшн-студий. Быстрый поиск и анализ фрагментов из тысяч видео открывают новые возможности для использования уже существующих материалов.

Таким образом, мы не только решаем текущие задачи отрасли, но и обозначаем вектор ее развития, делая процессы более эффективными и соответствующими современным требованиям.

- Каковы направления развития проекта?

Мы видим большой спрос на создание контента. Зритель, особенно молодой, привык потреблять видео продолжительностью не более трех минут. Важно уметь удерживать его внимание и вызывать интерес к фильмам, сериалам и шоу. Со старшей аудиторией проблема другая — высокий уровень насмотренности и обилие контента осложняют процесс выбора. Короткие видео зритель оценивает быстро — получает впечатления и переключается на другой контент, если что-то не понравилось.

Над развитием технологии создания коротких видео мы и планируем работать, улучшая алгоритмы поиска самых захватывающих фрагментов, плюс усовершенствуем инструмент для дистрибуции контента. Он будет применяться в том числе и для формирования подборок коротких видео на основе интересов пользователя.

Еще одним перспективным направлением, на наш взгляд, является автоматическая модерация контента. Соблюдение правил модерации контролируется государственными органами, которые налагают значительные штрафы за их нарушение. Например, Роскомнадзор за прошлый год выписал около сотни административных протоколов за демонстрацию запрещенного контента, а общая сумма штрафов за этот период превысила 50 млн руб. С увеличением объема контента возрастает потребность в его качественной модерации для обеспечения безопасности. Одна из главных проблем индустрии дистрибуции контента сегодня — это высокая стоимость ручной модерации. Штаты модераторов увеличиваются, поскольку объем контента растет не по дням, а по часам. Ручная модерация происходит медленно, и время публикации контента увеличивается. А значит, снижается прибыль.

Искусственный интеллект поможет выйти на новый уровень модерации контента. Используя уникальную экспертизу при поиске фрагментов в видео, мы планируем создать инструмент для многократного повышения эффективности модераторов и сокращения времени на проверку контента перед публикацией.

Третье перспективное направление — интеграция с крупными платформами и создание удобных инструментов для дистрибуции контента. Мы стремимся сделать нашу технологию максимально доступной для создателей контента, стриминговых сервисов и социальных сетей.