Gemini Omni — мультимодальная ИИ-модель для создания и редактирования видео

Автор:

На конференции Google I/O состоялся анонс новой мультимодальной модели Gemini Omni, которая предназначена для создания и редактирования видео на основе практически любых входящих данных.

В отличие от аналогов, Gemini Omni способна виртуозно объединять текст, изображения, аудиозаписи и видеоматериалы в полноценные сгенерированные клипы. При этом система следит за тем, чтобы все элементы оставались логичными и связанными даже при частой смене сцен и сложных монтажных склейках.

До сегодняшнего дня инструменты для генерации видео с помощью ИИ были довольно разрозненными. Одни выдавали потрясающую картинку, но совершенно не справлялись с повествованием, тогда как другие постоянно «теряли» персонажей или меняли окружение прямо посреди сцены. Google заявляет, что Gemini Omni решает эту проблему. Новая модель глубоко понимает контекст, законы физики и способна поддерживать визуальную непрерывность на протяжении долгих творческих сессий.

Google также утверждает, что Omni гораздо лучше предыдущих систем понимает, как работают гравитация, кинетическая энергия и гидродинамика. Это позволяет нейросети генерировать более убедительные и реалистичные сцены. Объединяя обширные знания об устройстве нашего мира с продвинутой генерацией визуальных образов, модель может создавать сложные объясняющие ролики, образовательные материалы и глубокие сюжетные сцены, отталкиваясь от коротких подсказок.

Как и упоминалось ранее, модель может объединять фотографии, рисунки, видео, текстовые промпты и аудиозаписи. Вы можете начать с грубых набросков или с отснятого материала, а затем легко превратить их в кинематографические шедевры. Модель может сама предлагать референсы стилей и движений, что даёт создателям полный контроль над атмосферой и настроением финального видео.

Ещё одним важным нововведением является возможность редактирования в диалоговом режиме. Теперь пользователям не нужно открывать сложные, запутанные монтажные программы и покадрово корректировать клипы. Достаточно просто естественным языком описать, что именно нужно изменить в кадре.