Приложения1 мин.

Китайская Tencent представила ИИ, превращающий фото в 3D-миры

HunyuanWorld-Voyager

© Tencent

Tencent выпустила новую модель искусственного интеллекта HunyuanWorld-Voyager, которая умеет создавать короткие «интерактивные» 3D-видео из одной фотографии. Пользователь задаёт траекторию движения камеры — вперёд, назад, влево или вправо — и система генерирует видеоролик, где объекты сохраняют правильное расположение и перспективу.

Каждая генерация длится около 2 секунд, но клипы можно соединять в более длинные сцены. Voyager работает с помощью двух ключевых технологий. Во-первых, он одновременно генерирует изображение и данные о глубине. Во-вторых, использует так называемый «мировой кэш» — набор 3D-точек из предыдущих кадров, которые помогают сохранять согласованность изображения при смене ракурсов.

Для обучения модель «смотрела» более 100 тысяч видеороликов, в том числе сцены на Unreal Engine. Это позволяет ей имитировать, как камера движется в играх и фильмах. Однако пока система справляется не идеально, пишут СМИ.

Voyager уже доступен на платформе Hugging Face, но требует мощных систем — от 60 до 80 ГБ видеопамяти. Использовать модель в коммерческих проектах с большой аудиторией можно только по отдельной лицензии.

Источник:Github