腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

2024-03-17 阅读 37 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

想动哪里点哪里，so easy

注意看这个楼梯上的动画小鼠形象，只需单击小鼠腹部，再输入“跳舞”，它就能瞬间扭动起来。

同时，画面的其他部分保持原有的静止状态。

腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

不只是人物、卡通形象可以控制，图片的其余部分，通过点击和输入简短提示词，也能动起来。

腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

进一步测试，是可以实际感知到Follow-Your-Click对画面动态部分的精准控制的。

同样是鸟图，点击小鸟，输入“动动脑袋”：

腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

输入“扇扇翅膀”：

腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

输入“跳个舞吧”：

腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

输入“不如摇摆”：

腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

总结，就是想要哪里动，就点哪里。

研究团队还将Follow-Your-Click和其他视频生成模型进行了同题对比，以下是实验效果：

腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

一键点，万物动

此前图生视频模型的生成方法，一般都需要用提示词描述运动区域，并提供运动指令的详细描述。

从生成效果来看，过往技术在指定图像移动部分缺乏控制，往往是让整个场景动起来，而不是具体到图像上的某个区域。

腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

为了解决这些问题，腾讯混元大模型团队、清华和港科大联合项目提出了更实用和可控的图像到视频生成模型Follow-Your-Click。

实现方式上，Follow-Your-Click首先整合了图像语义分割工具Segment-Anything，将用户点击转换为二进制区域Mask，将其作为网络条件之一。

其次，为了更好地正确学习时间相关性，团队还引入了一种有效的首帧掩模策略。

这种方式对模型生成的视频质量有较大的性能提升，不论是在畸变还是首帧的重构效果上都有很大的帮助。

此外，为了实现简短提示词的文字驱动能力，研究团队构建了一个名为WebVid-Motion的数据集——利用大模型来过滤和注视视频标题，并强调人类情感、动作和常见物体的运动，通过数据集提升模型对动词的响应和识别能力。

联合研究团队还设计了一个运动增强模块，主要用途一方面是更好地适应数据集，一方面用来增强模型对运动相关词语的响，同时理解简短提示指令。

腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

在视频中，不同类型的物体可能表现出不同的运动速度。

以往的工作中，每秒帧数（FPS）主要作为全局的动作幅度控制参数，间接调整多个物体的运动速度。然而，它无法有效控制移动物体的速度。

举个栗子，一个展示雕塑的视频可能具有很高的FPS，但是没有物体的运动速度。

为了实现对运动速度的准确学习，研究团队提出了一种基于光流的运动幅度控制，使用光流模长作为新的视频运动幅度控制参数。

腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

以上这些新提出的方法，加上各模块的组合，Follow-Your-Click大大提升了可控图生视频的效率和可控性，最终实现了用简单文本指令来实现图像局部动画。

One More Thing

小道消息！

Follow-Your-Click联合项目组中的腾讯混元大模型团队，正努力研究和探索多模态技术。

此前，该团队已经作为技术合作伙伴，支持了《人民日报》的原创视频《江山如此多娇》。

该说不说，2024年，一定是多模态卷到爆炸的一年……

项目主页：https://follow-your-click.github.io/

论文链接：https://arxiv.org/pdf/2403.08268.pdf

GitHub：https://github.com/mayuelala/FollowYourClick

文章来自微信公众号 “ 量子位 ”

我问了 Gemini 1.5 Pro 五个问题，找到了初遇ChatGPT的感觉

关联网址

关联标签

#大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3663 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

想动哪里点哪里，so easy

一键点，万物动

One More Thing

我问了 Gemini 1.5 Pro 五个问题，找到了初遇ChatGPT的感觉

拥抱AI裁员8000！百年巨头IBM的“广进计划”开始了

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3663 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

想动哪里点哪里，so easy

一键点，万物动

One More Thing

我问了 Gemini 1.5 Pro 五个问题，找到了初遇ChatGPT的感觉

拥抱AI裁员8000！百年巨头IBM的“广进计划”开始了

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿