Nvidia представила ИИ-модель для создания музыки и аудиоконтента

17.12.2024

2228 прочтений

Технология Fugatto позволяет воспринимать голоса и другие звуки и модифицировать их.

Компания Nvidia продемонстрировала новую модель искусственного интеллекта для создания музыки и аудиоконтента, которая может изменять голоса и генерировать новые звуки. Новая технология предназначена в первую очередь для производителей музыки, фильмов и видеоигр. Открыто распространять технологию Fugatto (Foundational Generative Audio Transformer Opus 1) компания в ближайшее время не планирует. Новая модель, которая объединила ряд технологий, разработанных стартапами (в частности, Runway) и более крупными игроками (Metal Platforms), позволяет генерировать аудио и видео на основании текстового запроса. От других технологий ИИ ее отличает способность воспринимать и модифицировать существующие звуки. Например, музыкальная последовательность, сыгранная на фортепиано, может быть трансформирована в человеческое пение, а у записанных слов и фраз можно менять акцент и эмоциональные оттенки.

Благодаря компьютерам и синтезаторам, появившимся в последние 50 лет, музыка сегодня звучит по-другому. А генеративный ИИ открывает здесь дополнительные возможности.

Новая модель была разработана на основе данных, полученных из открытых источников, но в Nvidia пока не решили, стоит ли распространять ее публично. Любая генеративная технология всегда сопряжена с определенными рисками, поскольку может быть использована для совершения действий, против которых возражают ее создатели – например, для дезинформации или для воспроизведения защищенных авторским правом персонажей. OpenAI и Meta (компания признана экстремистской и запрещена в России. — Прим. ред.) также пока не сообщают о сроках выпуска моделей, генерирующих аудио или видео.

Nvidia представила ИИ-модель для создания музыки и аудиоконтента

Проблемы автоматизации аналитики: как избежать распространенных ошибок