Каждая генерация длится около 2 секунд, но клипы можно соединять в более длинные сцены. Voyager работает с помощью двух ключевых технологий. Во-первых, он одновременно генерирует изображение и данные о глубине. Во-вторых, использует так называемый «мировой кэш» — набор 3D-точек из предыдущих кадров, которые помогают сохранять согласованность изображения при смене ракурсов.

Для обучения модель «смотрела» более 100 тысяч видеороликов, в том числе сцены на Unreal Engine. Это позволяет ей имитировать, как камера движется в играх и фильмах. Однако пока система справляется не идеально, пишут СМИ.

Voyager уже доступен на платформе Hugging Face, но требует мощных систем — от 60 до 80 ГБ видеопамяти. Использовать модель в коммерческих проектах с большой аудиторией можно только по отдельной лицензии.