Google представила нейросеть Lumiere для генерации коротких реалистичных видео, передает Arnapress.kz со ссылкой на официальный сайт компании.
Lumiere – это инновационный шаг в области генерации видео, основанный на пространственно-временной диффузии, или Space-Time-U-Net (STUNet).
Одной из ключевых особенностей Lumiere является возможность создавать реалистичные видеоролики продолжительностью в пять секунд по текстовому описанию. В отличие от некоторых альтернативных моделей, использующих двухэтапный процесс генерации, Lumiere создает видео за один проход. Это позволяет избежать несогласованности кадров между собой и обеспечивает более естественное визуальное восприятие.
Модель была обучена на внушительном наборе данных, включающем 30 миллионов видеороликов с текстовыми описаниями. Этот многообразный набор данных позволил Lumiere научиться генерировать видео разного стиля и содержания. Входные данные состояли из видео с разрешением 128×128 пикселей, длиной 80 кадров и частотой 16 кадров в секунду, в то время как на выходе модель создает пятисекундные ролики разрешением 1024×1024 пикселей.
Особенности работы Lumiere включают несколько режимов, таких как генерация видео по текстовому описанию, анимация изображений, соблюдение определенного стиля и возможность изменять только указанные фрагменты видео. Это предоставляет пользователям широкий спектр творческих возможностей.
По сообщению сайта Arna Press