Post

AesopAgent

智能体驱动,结合RAG,Story to Video

AesopAgent

https://arxiv.org/abs/2403.07952

分两部分,Horizontal Layer 和 Utility Layer,可以理解为前者是统筹管理和决策(用了 RAG),后者是一套应用,让每个操作可以执行。

image-20250117125250684

related work 可以看一下里面的内容有没有相关的。

架构

image-20250117125547351

Horizontal Layer

工作流创建,任务规划,数据库更新,prompt 优化。

工作流:剧本生成、图像生成、视频组装

K-RAG 和 E-RAG 优化,一个是已有的知识库,一个在使用过程中根据结果反馈不断更新经验

  • 工作流编排

    image-20250117131505361

    把任务描述和编排工作流的 prompt 输给任务规划 agent,生成工作流 $T$。这个过程中 E-RAG 提供经验建议,并从工作流的后续执行结果处得到反馈,更新知识库。

  • prompt 优化

    image-20250117134154151

    K-RAG 把专家知识融合进 prompt 里,E-RAG 进一步优化 prompt。

    K-RAG 索引和存储专家提供的知识文档,E-RAG 根据结果总结经验并存储。

  • 应用调用

    把应用程序及其使用教程写入 K-RAG 的知识库,供智能体查询;E-RAG 不断更新经验。

Utility Layer

生成 n 个图像,然后合成视频。

  • 生成合理的图像

    • 在训练时把一些与构图相关的“magic word”做特殊标注,让图像生成单元可以理解他们的意思,然后用这些 magic word 来描述需求。

    • 合理布局:生成一个框,在框里生成特定的图像。

  • 角色一致性

    保证故事的多个图像中,角色外观一致。

    • 改善人物描述

      整体图像描述中加入更详细的角色特征;对每个角色生成单独的角色特征描述。

    • 人物图像修复

      对图像里的角色做 mask,然后在 mask 的区域根据角色描述做修复。

  • 图像风格一致性

    保证多个图像的风格一致

    • 图像风格学习

      用同样风格的图像训模型,让他生成出来的图像都是这种风格。

    • 图像风格转换

      ControlNet

  • 动态视频合成

    • 动态素材生成

      选择和编辑素材,生成音频和视频素材。

      语音素材:结合背景音乐和音效,并用了 Text-to-Speech 技术

      视频编辑:把图像序列转换成视频,包括详细描述和视觉效果分析、过渡效果

    • 时间线对齐

      防止时间错位

实验

举了个例子展示 E-RAG 知识库的更新和其对工作流规划的优化。

举了个例子展示 E-RAG 对 prompt 的优化,并让专业编剧对生成的剧本进行评估(有无 K-RAG 对比,和其它项目对比)

Utility 的选择:一开始用 DALL-E,发现效果不好,agent 搜索到了一种结合 Lora 和 ControlNet 的解决方案,应用并将其纳入 K-RAG 知识库中。

反正就是举了些特定的例子说明自己的这套有用,然后又横向对比了一些其它方法。

This post is licensed under CC BY 4.0 by the author.