AesopAgent

智能体驱动，结合RAG，Story to Video

Posted Jan 17, 2025

By Zhixin Cai

4 min read

AesopAgent

https://arxiv.org/abs/2403.07952

分两部分，Horizontal Layer 和 Utility Layer，可以理解为前者是统筹管理和决策（用了 RAG），后者是一套应用，让每个操作可以执行。

related work 可以看一下里面的内容有没有相关的。

架构

工作流创建，任务规划，数据库更新，prompt 优化。

工作流：剧本生成、图像生成、视频组装

K-RAG 和 E-RAG 优化，一个是已有的知识库，一个在使用过程中根据结果反馈不断更新经验

工作流编排
把任务描述和编排工作流的 prompt 输给任务规划 agent，生成工作流 $T$。这个过程中 E-RAG 提供经验建议，并从工作流的后续执行结果处得到反馈，更新知识库。
prompt 优化
K-RAG 把专家知识融合进 prompt 里，E-RAG 进一步优化 prompt。
K-RAG 索引和存储专家提供的知识文档，E-RAG 根据结果总结经验并存储。
应用调用
把应用程序及其使用教程写入 K-RAG 的知识库，供智能体查询；E-RAG 不断更新经验。

生成 n 个图像，然后合成视频。

生成合理的图像
- 在训练时把一些与构图相关的“magic word”做特殊标注，让图像生成单元可以理解他们的意思，然后用这些 magic word 来描述需求。
- 合理布局：生成一个框，在框里生成特定的图像。
角色一致性
保证故事的多个图像中，角色外观一致。
- 改善人物描述
  整体图像描述中加入更详细的角色特征；对每个角色生成单独的角色特征描述。
- 人物图像修复
  对图像里的角色做 mask，然后在 mask 的区域根据角色描述做修复。
图像风格一致性
保证多个图像的风格一致
- 图像风格学习
  用同样风格的图像训模型，让他生成出来的图像都是这种风格。
- 图像风格转换
  ControlNet
动态视频合成
- 动态素材生成
  选择和编辑素材，生成音频和视频素材。
  语音素材：结合背景音乐和音效，并用了 Text-to-Speech 技术
  视频编辑：把图像序列转换成视频，包括详细描述和视觉效果分析、过渡效果
- 时间线对齐
  防止时间错位

举了个例子展示 E-RAG 知识库的更新和其对工作流规划的优化。

举了个例子展示 E-RAG 对 prompt 的优化，并让专业编剧对生成的剧本进行评估（有无 K-RAG 对比，和其它项目对比）

Utility 的选择：一开始用 DALL-E，发现效果不好，agent 搜索到了一种结合 Lora 和 ControlNet 的解决方案，应用并将其纳入 K-RAG 知识库中。

反正就是举了些特定的例子说明自己的这套有用，然后又横向对比了一些其它方法。

This post is licensed under CC BY 4.0 by the author.