WorldGPT

文+图生视频

Posted Jan 16, 2025 Updated Jan 21, 2025

By Zhixin Cai

1 min read

WorldGPT

https://arxiv.org/abs/2403.07944

架构

组成：prompt 增强器、视频生成器（关键帧生成器、视频生成器）

工作流程（如上图）：输入文本和图像信息，生成关键词、帧状态、增强后的 prompt，然后生成关键帧，最后用关键帧和增强后的 prompt 生成视频。

把输入 $S$ 转成一系列特定任务的 prompt 序列。

ChatGPT 识别出一些关键对象，然后生成 target mask。

然后用 ChatGPT 提取出的指令 prompt 让 Stable Diffusion Model 生成视频的初始帧和最终帧。

用 DynamiCrafter 根据初始帧和最终帧生成无缝帧序列。

用一个 4090 来跑。

数据集：AIGCBench。

This post is licensed under CC BY 4.0 by the author.