人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

2024-05-18 阅读 33 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

方法概览

研究团队提出的方法可以概括为三个核心组件，如图所示。这三个部分包括：面向 ID 的视频数据集重构流程、随机人脸参考的训练方法，以及 ID-Animator 模型框架。通过这三个关键组成部分，ID-Animator 成功实现了高保真的一致性人物视频生成。

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

ID-Animator 框架

ID-Animator 框架由一个轻量级的人脸适配器模块和一个视频生成主干网络组成。其视频生成主干网络权重在训练过程中保持固定，无需微调。人脸适配器模块则由交叉注意力模块和可学习的面部特征查询组成，负责从 CLIP 编码的特征中提取与身份相关的表征，并将身份表征注入主干网络。利用这种轻量级的适配器模块，ID-Animator 只需要很小的训练开销就能实现人物一致性的视频生成。

面向 ID 的数据集构建

为了应对以 ID 为核心的成对视频 – 文本数据集在视频生成领域的稀缺挑战，研究者们提出了一套巧妙的数据集重构策略。他们利用现有的 Celebv-HQ 数据集，将其重构为以 ID 为中心的人类视频数据集。这一策略分为两个主要步骤：文本重写和面部图像资源库构建。

现有的 Celebv 数据集的文本描述采用固定模板，主要关注人物表情的变化，却忽略了人物属性与所处环境，同时缺乏对动作的描述，因此不适用于文本生成视频的训练。为了解决这一问题，研究者们提出了一种新颖的文本重写方法，旨在生成更贴切的人类视频描述文本。考虑到视频整体特征和人物静态属性，他们采用了一种解耦式的文本重写方法，分别描述人物属性和环境，生成人类属性描述；同时描述视频中人物的整体动作，生成动作描述。最后，借助大型语言模型将两种描述整合，生成连贯且丰富的全新文本。

如图所示，重写后的文本描述更接近人类的语言风格，并能更好地描述人物的运动和属性。这一创新性方法为视频生成领域提供了一个更实用、更高质量的数据集基础。

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

为了进一步提升生成视频的身份保持能力，研究者们引入了一种随机面部提取技术。这种技术的特点在于，它并不直接采用整个视频帧作为生参考图像，而是构建数据集时专门针对人脸区域进行随机采样，从而形成一个独立的面部图像资源库。这一策略有效地过滤了大量非身份决定性的视觉信息，如背景变化、衣着装饰等，使得生成模型能够更加专注于学习和重现个体的面部特征与表情细节。

随机参考人脸训练方法

利用数据集面部资源库，研究者们提出了一种随机参考人脸的训练方法。这种方法的核心在于利用与视频内容弱相关的参考图像作为条件输入，引导模型在生成视频内容时，更多地关注指令指导的动作和 ID 无关特征。

具体操作上，研究者们从人脸资源库中随机选取参考图像，使得每次训练迭代都能为模型提供一个新的、与目标视频序列关联较弱的面部图像作为参考。这种方法实现了视频内容与人脸参考图像的解耦，有助于模型更好地学习和生成符合指令的动作，同时减弱与身份无关的特征的影响。

实验结果

与 IP-Adapter 对比

研究者们首先将 ID-Animator 与常用的零样本定制化图像生成模型 IP-Adapter 的变体进行对比。将零样本定制化图像生成模型直接应用于视频生成时，可能会导致指令跟随能力和 ID 一致性的降低。为了证明 ID-Animator 的优越性能，研究者们展示了在 3 个名人和普通人上的对比结果。

如图所示，ID-Animator 在视频场景下展现出了更强大的指令跟随能力和 ID 保真度。

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

应用展示

上下文重塑：ID-Animator 能够利用文本引导，动态调整角色的多维度属性，包括发型、服饰、性别，执行特定的动作和改变角色所处环境等。

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

ID 特征融合: ID-Animator 能够将不同身份的特征以不同比例混合，从而生成结合两种身份特征的视频。

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

与 ControlNet 结合：ID-Animator 具有与 ControlNet 等现有细粒度条件模块的兼容性，这意味着用户能通过上传特定的引导图像或图像序列，精确指引视频中每一帧的生成细节。

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

社区模型推理：ID-Animator 能够和 CivitAI 社区的多种模型兼容，即使在未曾训练过的模型权重上也能保持有效性，能够生成多种风格的视频。

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

更多详细内容，请阅读原论文。

本文来自微信公众号“机器之心”

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

大模型研究获最佳论文，WWW 2024奖项出炉

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

方法概览

ID-Animator 框架

面向 ID 的数据集构建

实验结果

大模型研究获最佳论文，WWW 2024奖项出炉

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

方法概览

ID-Animator 框架

面向 ID 的数据集构建

实验结果

大模型研究获最佳论文，WWW 2024奖项出炉

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿