除了震惊、炸裂和行业洗牌，我们来聊聊Sora对普通人的意义

2024-02-18 阅读 35 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

第一，使用了Transformer架构的Diffusion扩散模型

本质上Sora和Pika、Runway采用的底层模型是类似的，都是Diffusion扩散模型。不同之处在于，Sora把其中的实现逻辑：U-Net架构，替换成了Transformer架构。

基于Transformer的实现，依赖视觉数据向量化。Sora用visual patches代表被压缩后的视频向量进行训练，就像用tokens代表被向量后的文字一样。这个patches同时带有时间和空间信息，还可以自由排列，灵活度极高，这也是为什么Sora能不限分辨率、持续时间和视频尺寸进行训练。而之所以Sora把Diffusion噪点还原的如此真实，背后依赖的就是transformers的扩展效果。

《Scalable diffusion models with transformers》详细解释了这背后的编解码原理：通过增加transformer模型的深度、宽度和输入patches的数量，可以显著提高视觉保真度。而在《ViViT: A Video Vision Transformer》这篇论文里，更加详细解释了transformer架构如何应用在视频领域：先从空间上对单帧视频进行Embed，再从时间上把多帧进行再编码，完成时间套空间的双层嵌套，再把这些时间、空间的位置信息放到MLP Head进行分类存储，很像是TCP/IP协议的编解码传输原理。

除了震惊、炸裂和行业洗牌，我们来聊聊Sora对普通人的意义

总结下来的结论就是：只要算力足够，理论上，Sora生成视频的长度可以无限长，图像效果可以无限接近真实。对普通人来说，用上Sora生成长视频确实只是时间问题，而这个时间则依赖硬件算力是否能跟上，所以，无脑入NV的坑吧~

此外，上述论文早在21年就已经完成，Runway这样的公司也不难想到用Transformer架构升级视频生成模型，那为什么还迟迟无法突破呢？这就来到了下一个关键原因：

第二，DALL·E 3中引入的captioner model和GPT的prompts扩写方面的技术积累

实现文生视频，把文字和视频关联是关键问题。OpenAI的解法，是训练一个高度描述性的标题模型。类似这样的格式：

一个 {人或物体} 穿着 {服装类型} 悠闲地在 {什么环境下} 在 {地点} 散步

这套模型，可以让视频的主体保持一致，但每个元素又可以灵活替换，比如：

一个女人穿着蓝色牛仔裤和白色T恤游闲地在漂亮的落日晚霞映照下在南极洲散步。
一只袋鼠穿着绿裙子和遮阳帽游闲地在冬日暴风雪下在印度孟买散步。

这样的实现方式，不仅生成的内容更有保证，想象力也是无限的。

相对的，我们对prompt的掌握，也无需像Midjourney那么复杂，自然语言就可以完全胜任。因此对我们普通人而言，无需再费劲掌握晦涩的prompt魔法单词，用模式化的自然语言描述视频，才是要提前思考和学习的技能。

当然，对OpenAI来讲，还有另外的先发优势，就是

第三，足够大规模的训练量

类似3D一致性、长距离连贯性和对象持久化等效果的实现原理，文中并没有多说，但有一点是肯定的，就是需要足够大的训练量。

这也是LLM最神奇的地方，量变带来质变，在Sora上得到了极致体现，可能就连OpenAI自己也不清楚为什么，只能归因于纯粹的规模效应。

但也是因为无法预测，Sora视频同样会带来“幻觉”，想想看，一下子凭空窜出很多只狼（https://openai.com/sora的示例），是不是和ChatGPT聊天凭空编故事是一样的？

同理，仅仅几个月时间，幻觉问题就得到了很大缓解，相信同样的问题，也难不倒世界上这么多聪明人。

总结下，对我们普通人，可以用下面的姿势来迎接Sora的到来：

只要通过红军测试和专家审核，Sora在2-3个月内就能被我们所用，这一点是完全可预见的；
但受限于算力，第一版交给我们的Sora，很可能时长、视频效果、文字识别准确性，还远不及预期；
提前准备好对自然语言Prompt撰写技巧的学习，绝对没错；
开始准备囤一批自己的私有短视频库吧，用类似RAG的原理训练短视频模型，解决视频生成幻觉问题，也许是视频时代提前要考虑的。

文章来自于微信公众号 “互联网悦读笔记”（ID：pmboxs)，作者 “申悦”

10M上下文，仅靠提示就掌握一门语言，Google Gemini 1.5被OpenAI抢头条是真冤

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

除了震惊、炸裂和行业洗牌，我们来聊聊Sora对普通人的意义

第一，使用了Transformer架构的Diffusion扩散模型

第二，DALL·E 3中引入的captioner model和GPT的prompts扩写方面的技术积累

第三，足够大规模的训练量

总结下，对我们普通人，可以用下面的姿势来迎接Sora的到来：

10M上下文，仅靠提示就掌握一门语言，Google Gemini 1.5被OpenAI抢头条是真冤

揭秘字节AI版图：调集多位高管参战，数款重磅产品内测

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

除了震惊、炸裂和行业洗牌，我们来聊聊Sora对普通人的意义

第一，使用了Transformer架构的Diffusion扩散模型

第二，DALL·E 3中引入的captioner model和GPT的prompts扩写方面的技术积累

第三，足够大规模的训练量

总结下，对我们普通人，可以用下面的姿势来迎接Sora的到来：

10M上下文，仅靠提示就掌握一门语言，Google Gemini 1.5被OpenAI抢头条是真冤

揭秘字节AI版图：调集多位高管参战，数款重磅产品内测

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿