多模态开源工具 for Agent
多模态开源工具,用于构建Agent
近期的工作目标是自己构建一个 Agent,Agent 的关键是把各种工具串联起来,构建一个端到端的工作流。重点可能不像提出新算法那样去关注在评估集上的特定指标提升,主要是提出一个“好玩”的问题,做出一个有意思的东西。
在前期,主要是寻找并运行各种开源的生成工具和模型,积累 Agent 的“工具库”,搭建环境并体验尝试使用,并在这个过程中慢慢寻找潜在的 idea。
ConsisID
Identity-preserving text-to-video.
https://huggingface.co/papers/2411.17440
给定参考人物图像,以及文字指示,生成单个特定人物的视频。
- 已完成环境配置,制作环境镜像。但是模型下载比较慢。
使用时遇到的问题:如果上传的人像由于光线原因,面部不同部位色彩有差异,生成出来的图像也会继承这一面部特征,但由于背景改变,这一特征变得不合理。也就是说生成效果会很依赖于人面部图像的质量,可以接一个 I2I 的模型去对上传的人像进行优化,或者是修改。
MagicTime
metamorphic video generation.
https://huggingface.co/spaces/BestWishYsh/MagicTime
https://github.com/PKU-YuanGroup/MagicTime
文生图,主要是让物体的变化符合物理规律。
IP-Adapter
https://github.com/tencent-ailab/IP-Adapter
一个适用于生成特定 IP image 的 adapter,可以结合一些模型完成各种生成特定 IP 图像的任务。
Ingredients
https://github.com/feizc/Ingredients
Based on ConsisID,上传两个特定人物图像,生成视频。
##Follow-Your-Emoji
https://github.com/mayuelala/FollowYourEmoji