阿里版“马良神笔”来了，轻轻一抹让蒙娜丽莎对你微笑

2024-01-13 阅读 27 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

不仅要动起来，还要准确和真实

一个简单好用的图生视频工具应该长什么样？最近，阿里云科研智算团队给出了他们的答案：高保真+高可控性。

Animate Anything是阿里云科研智算团队从去年7月就着手研究的图生视频项目。当时，虽然已经有不少文生图领域的公司如Midjourney、Stability AI等走红，但图生视频领域的研究都还非常少，更别说有成熟可用的模型了。

Animate Anything的开发团队就开始探索通过什么技术让图片动起来既精准、又连贯。

以往AI生成视频的一个常见问题是精细度受损——图片在生成视频的过程中，常常容易出现原图被扭曲变形的问题，尤其是在人物面部特征和皮肤纹理这些细节上，导致生成视频很容易就有“一眼假”人工感，甚至在几秒内就让人“改头换面”。

就像以下这张马斯克的经典图片一样，经过Gen-2的“巧手”，简直是本人来了都不敢相认的程度。

阿里版“马良神笔”来了，轻轻一抹让蒙娜丽莎对你微笑

图源：X

但是，Animate Anything通过技术手段提高了生成视频对原图像的保真度。团队在阿里VideoComposer模型的基础上做了微调，清理过滤了千万量级HD- VILA-100M数据集，从中挑选出了20万个视频片段。在训练过程中，算法工程师通过保留每一个视频的第一帧，往剩下帧上加入噪声的方法，让网络学习并预测出完整视频。这种方式让图片在“动”起来的同时，还能对原图的画面保持较高的还原度。

可控性的提高也提升了生成视频的良品率。也就是说，以往用户可能需要生成10个视频，才有1个符合要求。但现在，用户可以在两三次尝试后就得到一个满意的视频，这有助于用户体验感的提升。

阿里版“马良神笔”来了，轻轻一抹让蒙娜丽莎对你微笑

图源：Animate Anything

在图生视频工具的使用中，另一个常常让用户体验大打折扣的点在于，如何让AI准确地理解文字提示词。特别是当一张图片所呈现的内容丰富且复杂时，如何能够实现仅仅只让前景或后景的一部分动起来呢？

Animate Anything提供了一种能够精确控制部分区域动起来的工具“运动笔刷”（motion brush），即使画面繁复如张择端的《清明上河图》，也只要在图上轻轻一抹，就能实现车水马龙的自然流动感。

阿里版“马良神笔”来了，轻轻一抹让蒙娜丽莎对你微笑

图源：Animate Anything

据开发团队介绍，这一功能主要是通过在图片上添加「运动图层」（motion mask）来实现的。

简单来说，在训练模型时，算法工程师从真实的视频素材中生成了只有指定区域运动的视频，将这部分区域标记为可动区域图层，再引导网络学习可动区域图层与真实视频之间的运动关系。

最后，当用户输入图片与指定的运动图层以后，网络就可以实现让图片特定区域动起来的效果。

阿里版“马良神笔”来了，轻轻一抹让蒙娜丽莎对你微笑

图源：Animate Anything

以上图为例，用户涂抹红色和绿色部分以后，模型结合以往基于在真实视频中添加运动图层的训练，就可以预测行人和游船的动态效果。用户输入图片以后，模型识别到需要动态化的区域，叠加运动图层，就可以让红色区域的行人走动起来，让绿色区域的船穿行水上，实现精准地动态视频生成效果。

除了让图片动起来以外， Animate Anything团队引入了「运动强度」（motion strength）这一标准，来衡量物体的运动速度，让物体的运动更符合用户的体感。此外，Animate Anything还提供了更多参数调整的设置，比如可以控制动作的幅度、强度等。

以官方放出的视频为例，运动强度从4增强至20，可以让图中的兔子实现从双耳晃动到全身跳跃的姿态变化。

阿里版“马良神笔”来了，轻轻一抹让蒙娜丽莎对你微笑

图源：Animate Anything

阿里版“马良神笔”来了，轻轻一抹让蒙娜丽莎对你微笑

图源：Animate Anything

阿里版“马良神笔”来了，轻轻一抹让蒙娜丽莎对你微笑

图源：Animate Anything

Animate Anything开发团队告诉智能涌现，「运动笔刷」和「运动强度」两个功能的引入，颇受合作商的青睐。尤其是对于一些从事传统出版业务的合作伙伴，在数字化过程中，如何解决让以往教科书中的图“动起来”是关键问题，而运动笔刷和运动强度的控制，为他们提供了一种操作难度更低的选择。

现在，Animate Anything也已经被集成到了阿里云内部的“数字出版Copilot”工具中，AI工具+传统编辑器=更好用的Saas服务，从一线业务出发的导向也让Animate Anything早早走通了商业化之路。

构建高质量数据集是技术难点

2023年是大语言模型的浪潮席卷全球的一年，也是多模态模型不断涌现的一年。

除了Animate Anything以外，阿里在去年还发布了多个多模态模型。

比如，阿里在去年11月发布的Animate Anyone，只需一张人物照片，结合骨骼动画，就能生成人体动画视频。

阿里版“马良神笔”来了，轻轻一抹让蒙娜丽莎对你微笑

图源：Animate Anything

目前，基于Animate Anyone技术开发的全民舞王已经在通义千问App内正式上线。用户只需要上传一张真人或动漫全身照即可生成热舞视频，并且现在支持科目三、秧歌舞、蒙古舞等多种类型。

阿里版“马良神笔”来了，轻轻一抹让蒙娜丽莎对你微笑

兵马俑跳“科目三”

不过，这一赛道的竞争也是相当激烈。事实上，就在阿里推出Animate Anyone后几天，字节就紧随其后发布了Magic Animate，还抢先一步实现了开源。

放眼硅谷，竞争同样激烈，Midjourney、Runway等不断迭代优化，大厂们如OpenAI和Google也蓄势待发，不断优化着自研模型。

不过，如果说文字领域的GPT模型已经迭代到GPT-4时代，那么在AI生成式视频领域则还处在更早期。不少业内从业者都表示，如今的AI生成式视频，技术发展阶段大概在GPT-2时代——也就是说，这一领域的“ChatGPT时刻”还没到来。

从现状看，当前文生/图生领域的技术路线尚未收敛，各家厂商都还在技术探索期。Animate Anything开发团队也表示，图生视频领域还有很多技术难点没有解决。

比如，最大的问题是清晰度受限，以及生成视频时间较短（普遍在2-3秒左右）的问题。就算能够拉长视频时长到十来秒，但其中的动作细节、清晰度也无法达到理想水平。

而如果要让视频更长、更清晰，海量高质量的视频训练素材必不可少。所以，如何构建高质量的训练数据集，是未来这一领域的模型构建要解决的关键问题。Animate Anything开发团队直言：

“如果构建了高质量的数据集，就已经成功了一半了。”

近期，Stability AI开源了它们的AI视频大模型Stable Video Diffusion，吸引了更多团队进入AI视频生成领域。目前，各家的训练路线还都比较接近，也意味着未来一两年内，这一赛道可能会迎来较为激烈的竞争。

不过，Animate Anything对后续的产品升级迭代有较为明确的想法，希望增加模型参数和训练视频的规模。此外，团队还计划在目前的基础上进一步加入视频编辑功能，在提升可用性的同时，让这个产品在商业上有更多的想象力。

文章来自于36氪 “王怡宁”，作者 “王怡宁”

ChatGPT在亚马逊上「开网店」，一夜之间成了网红

关联网址

关联标签

#AI #AI工具 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

阿里版“马良神笔”来了，轻轻一抹让蒙娜丽莎对你微笑

不仅要动起来，还要准确和真实

构建高质量数据集是技术难点

ChatGPT在亚马逊上「开网店」，一夜之间成了网红

拆掉英伟达护城河，细节曝光！世界最快超算用3072块AMD GPU训完超万亿参数LLM

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

阿里版“马良神笔”来了，轻轻一抹让蒙娜丽莎对你微笑

不仅要动起来，还要准确和真实

构建高质量数据集是技术难点

ChatGPT在亚马逊上「开网店」，一夜之间成了网红

拆掉英伟达护城河，细节曝光！世界最快超算用3072块AMD GPU训完超万亿参数LLM

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿