微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

2024-04-19 阅读 44 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

大关键技术，Sora同款思路

一句话概括：

不是直接生成视频帧，而是在潜空间中生成动作编码，再还原成视频。

是不是和Sora的思路很像了？

其实VASA-1的模型架构选择Diffusion Transformer，也与Sora核心组件一致。

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

据论文描述，背后还有3大关键技术:

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

人脸潜编码学习，这部分是高度解耦的。

团队从大量个真实的说话视频中，学习到一个理想的人脸特征空间。

把身份、外观、表情、姿态等因素在隐空间里剥离开。这样一来，同一个动作就能驱动不同的脸，换成谁都很自然.

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

头部运动生成模型，这部分又是高度统一的。

不同于之前的方法分别建模嘴唇、眼神、眉毛、头部姿态等局部动作，VASA-1把所有面部动态统一编码，用Diffution Transfromer模型，也就是SORA同款核心组件，来建模其概率分布。

这样既能生成更协调自然的整体动作，又能借助transformer强大的时序建模能力，学习长时依赖。

比如给定一组原始序列（下图第一列），最终可以做到：

用原始头部姿态，改变面部表情（第二列）
用原始面部表情，改变头部姿态（第三列）
用原始面部表情，生成全新的头部姿态（第四列）

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

最后是高效率推理。

为了实现秒实时合成，团队对扩散模型的推理过程进行了大量优化。

此外，VASA-1还允许用户输入一些可选的控制信号，比如人物的视线方向、情绪基调等，进一步提升了可控性。

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

AI造假成本越来越低了

被VASA-1效果震惊过后，很多人开始思考，把AI数字人做到如此逼真，发布这样一个技术真的合适吗？

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

毕竟用AI伪造音频视频诈骗的例子，我们已经见过太多。

就在2个多月前，还有一起假冒公司CFO开视频会议，直接骗走1.8个亿的案件发生。

微软团队也意识到了这一问题，并作出如下声明：

我们的研究重点是为数字人生成视觉情感，旨在实现积极的应用。无意创建用于误导或欺骗的内容。

然而，与其他相关内容生成技术一样，它仍然可能被滥用于模仿人类。

我们反对任何创造真实人物的误导性或有害内容的行为，并且有兴趣应用我们的技术来推进伪造检测……

目前VASA-1只发布了论文，看来短时间内也不会发布Demo或开源代码了。

微软表示，该方法生成的视频仍然包含可识别的痕迹，数值分析表明，距离真实视频的真实性仍有差距。

不上专业评估手段，肉眼看的话，仔细挑刺或直接对比真人视频，确实也能发现目前VASA-1演示视频中的一些瑕疵。

比如牙齿偶尔会变形。

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

以及眼神还不像真人那么丰富。（眼睛确实是心灵的窗户啊）

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

但是以“AIGC一天，人间一年”的进步速度来看，修复这些瑕疵恐怕也不用很久。

以及你能保证每时每刻都保持警惕分辨视频真假么？

眼见不再为实。默认不相信任何视频，成了很多人今天做出的选择。

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

不管怎么样，正如一位网友总结。

我们无法撤销已经完成的发明，只能拥抱未来。

01:13

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

文章来自微信公众号”QbitAI“，作者量子位

2024谷歌研究学者计划名单公布：清华、北大、上交ACM班等校友在列

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3735 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

大关键技术，Sora同款思路

AI造假成本越来越低了

2024谷歌研究学者计划名单公布：清华、北大、上交ACM班等校友在列

Sora问世，如何用大模型反诈？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3735 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

大关键技术，Sora同款思路

AI造假成本越来越低了

2024谷歌研究学者计划名单公布：清华、北大、上交ACM班等校友在列

Sora问世，如何用大模型反诈？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿