国产视频生成大模型大爆发，三分钟AI短剧批量上线

2024-08-09 阅读 53 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

摸着Sora过河

尽管Sora还没有向公众开放，但提及文生视频，Sora是一个绕不开的话题。

“目前，国产视频生成大模型的技术路径与Sora基本一致，只不过每家都会加入自己的Trick（技巧）。”Logenic AI联合创始人李博杰告诉《IT时报》记者，视频的本质可以看成是多张图片的连续排布放映，在文生图大模型中，最被人们熟知的技术是扩散模型，它可以根据输入的文字描述，获取数据的内在结构和分布规律，从而生成单张图片。

但扩散模型在语义、数据之间的联系存在局限，就需要Transformer模型将不同数据进行互相关联，联想生成大量图片，表达帧与帧之间的关系，最终通过编码器压缩成一条视频。

李博杰表示，目前视频生成大模型的算力可以达到ChatGPT3.5的水平，但还不及ChatGPT4的万卡集群规模，国内许多企业都具备这样的算力。因此在有限的算力下，决定视频质量的关键取决于数据的质量和数量，画面的连贯性也可以通过大量数据训练而实现。

不过，由于关键数据获取难、原始世界数据被越来越多的AI生成内容所“污染”，加上视频数据大多缺乏对应描述性文本或者描述质量低下，国产视频生成大模型开始从模型结构、组件等方面寻求技术突破来保证连贯性。

以智谱清影为例，智谱清影相关负责人周文（化名）告诉《IT时报》记者，为了解决内容连贯性的问题，智谱自研的三维变分自编码器结构（3D VAE）将原视频空间压缩至2%，减少了视频扩散生成模型的训练成本及训练难度。

模型结构方面，将因果三维卷积（Causal 3D convolution）作为主要模型组件，移除自编码器中常用的注意力模块，使得模型具备不同分辨率迁移使用的能力。同时，在时间维度上，因果卷积的形式也使得模型具备视频编解码从前向后的序列独立性，便于通过微调的方式向更高帧率与更长时间泛化。

与传统路径不同的是，智谱清影摒弃了交叉注意力机制（Cross Attention）模块，采用将文本、时间、空间三个维度全部融合起来的Transformer架构，在输入阶段就将文本和视频向量化（Embedding），然后再将不同模态的向量直接连接（Concatenate）起来，形成单一的特征向量，输入到下游任务中。

国产视频生成大模型大爆发，三分钟AI短剧批量上线

不过，这两种不同结构的数据特征空间有较大差异，此时就需要通过专家自适应层归一化技术（Expert Adaptive Layernorm）对文本和视频两个模态分别进行处理，利用扩散模型中的时间步信息，实现视觉信息与语义信息的对齐。

一个人拍一部剧成为可能

视频生成大模型的批量上线，最有可能被影响的是影视行业。

“不可否认，视频生成大模型让我们看到了影视发展的新可能。”上海大学温哥华电影学院副院长陈晓达告诉《IT时报》记者，AI生成不仅可以降低影片制作、场景搭建、妆造设计等成本和时间，也降低了入局门槛，一个人就有可能拍摄完一部剧。

6月28日，中央广播电视影视剧纪录片中心制作的三部AI短剧《英雄》《爱永无终止》《奇幻专卖店》上线央视频。此后，博纳影业与抖音合作推出AI科幻短剧《三星堆：未来启示录》，快手也利用可灵AI原创上线了AI奇幻短剧《山海奇镜之劈波斩浪》。截至8月8日，抖音和快手打造的两部AI短剧在所属平台播放量已经分别累计达到5504.7万次和5243.2万次。

国产视频生成大模型大爆发，三分钟AI短剧批量上线

从这些AI短剧中可以看到，人物角色的面部特征从始至终保持一致。通常而言，单纯使用文字描述生成视频时，每次的结果都会有一定差异，那么，这些短剧的一致性是如何实现的呢？

李博杰分析，其中可能用到了文生视频的核心模型——ControlNet。ControlNet是一种“辅助式”的神经网络模型结构，通过在Stable Diffusion模型中添加辅助模块，形成一个“锁定”副本和可训练副本。简单来说，通过ControlNet完成人物形象建模后“锁定”，再通过可训练副本进行后期视频场景、动作等变换。

也正是因为“锁定”，视频人物难以实现大幅度动作，陈晓达经过实测后告诉记者，每生成一帧画面都是一次“开盲盒”的过程，无法确保生成内容符合标准，因此只能花费大量时间不断生成，从中挑选出可用画面拼凑成一部短剧，“你会发现宣传的都是3分钟以内的短剧，想要靠AI生成拼凑出一部完整的长视频作品，目前还做不到。”

《山海奇镜之劈波斩浪》导演陈坤同样认为，在人物一致性、场景一致性、人物表演、动作交互等AI技术还没有高度可控和精确化的前提下，AI影视作品并不适合呈现特别复杂的故事，容易让观众出戏。

国产视频生成大模型大爆发，三分钟AI短剧批量上线

智谱AI CEO张鹏在接受媒体采访时也表示，现在视频生成大模型的商业化仍处于非常早期的阶段，生成效果对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等，都有非常大的提升空间。

“三无”AI电影威胁好莱坞

市场是有“嗅觉”的，虽然目前生成效果并不完美，但视频生成大模型赛道的火热程度不言而喻。启明创投主管合伙人周志峰在2024世界人工智能大会上预测，3年内AI视频生成技术将全面爆发。头豹研究院数据显示，预计到2026年，中国AI视频生成行业的市场规模将达到92.79亿元。

具体来看，快手可灵发布三个多月后，申请体验用户数量已突破 70 万，甚至出现排队等候申请的情况，累计生成的视频作品达 700 万份；爱诗科技打造的PixVerse大模型在国内上线88天后，达到一千万次视频生成量。这也成为央视着手制作AI短剧的原因之一。

国产视频生成大模型大爆发，三分钟AI短剧批量上线

当无演员演绎、无场景搭建、无绿幕特效的“三无”AI影视作品走向市场时，演员和编剧的“危机”也悄然来临。博纳影业集团影视制作副总经理曲吉小江在China Joy短剧创新论坛上表示，将为AI短剧塑造的角色打造热门个人IP。

面对AI“威胁”情况，从去年夏天开始，美国编剧工会和演员工会联手发起大罢工，让好莱坞陷入长达数月的停摆，导致影视作品数量大幅减少。据外媒报道，这一情况在今年依然没有出现好转，部分演员还被要求在与华纳公司的合同中同意使用“数字合成形象”，若拒绝则可能失去工作机会。

从国产视频生成大模型的现有能力来看，制作动态海报、广告短片、特效动画等已经不在话下，且应用场景还在扩展。陈晓达认为，技术本身固然重要，但首先要让使用者掌握标准化的工业流程，新技术才得以长效落地，“AI技术短时间内没法取代演员和编剧的地位，但会使用AI技术的人很快就能取代他们”。

对此，上海大学温哥华电影学院在去年2月开始开设AI电影课程，一方面让学生学会使用AI来提升影视制作效率和节省成本；另一方面也是为了顺应时代浪潮，不被“取代”。

文章来源于“IT时报”

一个用AI写作的科幻小说家，发现了大模型无法取代的人类能力

关联网址

关联标签

#AI #AI技术 #GPT3.5 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

235 用户在看

国产视频生成大模型大爆发，三分钟AI短剧批量上线

摸着Sora过河

一个人拍一部剧成为可能

“三无”AI电影威胁好莱坞

一个用AI写作的科幻小说家，发现了大模型无法取代的人类能力

圆桌对话：AI创造力：重构内容、重塑体验｜China Joy AIGC大会

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

235 用户在看

国产视频生成大模型大爆发，三分钟AI短剧批量上线

摸着Sora过河

一个人拍一部剧成为可能

“三无”AI电影威胁好莱坞

一个用AI写作的科幻小说家，发现了大模型无法取代的人类能力

圆桌对话：AI创造力：重构内容、重塑体验｜China Joy AIGC大会

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿