一文了解生成式AI视频

来源Al Pioneer

去年是 AI 视频爆发的一年。2023年一月份,还没有公开的文本转视频模型。截至目前,AI视频生成产品已达数十种,用户数百万。回顾这一年的AI生成式视频发展+值得关注的技术及应用,我们一起聊聊相关内容。主要包含以下几方面:

  • 当前AI视频分类
  • 生成式AI视频技术
  • AI视频外延技术及应用
  • 生成式AI视频展望
  • 生成式AI视频面临的挑战

AI视频分类

AI视频基本上可以分为以下4个大类:

一文了解生成式AI视频

1.文本/图片生成视频

顾名思义,就是输入一段文本描述/上传一张图片即可生成对应的视频。

我们常见的Runway、Pika、NeverEnds、Pixverse、svd等都属于此类。

比如runway的影视风格

一文了解生成式AI视频

Pika的动漫风格

一文了解生成式AI视频

NeverEnds的人像模特

一文了解生成式AI视频

当然还有一些外延应用,例如最近比较火的阿里的“全民舞王”,底层基于Diffusion Model,再结合了Controlnet等其他技术,后文也会讲到。

一文了解生成式AI视频

2.视频到视频的生成

通常分为风格迁移类型、视频内部的替换、局部重绘、视频AI高清化。

如WonderStudio的人物CG替换:

一文了解生成式AI视频

DomoAI的视频风格转换

涉及技术包括:视频序列帧生成和 Contorlnet 处理、视频风格迁移Lora、视频放大、面部修复等。

一文了解生成式AI视频

视频换脸

常见的有Faceswap、DeepFacelab等。涉及技术包括:人脸检测、特征提取、人脸转换、优化等。

一文了解生成式AI视频

3.数字人类

以Heygen和D-iD为代表,通过人脸检测Face detection、语音克隆TTS、口型同步Lip sync技术等组合实现。

一文了解生成式AI视频

4.视频编辑类型

素材匹配

可以根据你给定的主题或者需求,通过搜索现有素材拼接成一个完成的视频。我们平时剪辑最常用的剪映就是其中的一种,可以在线搜索素材匹配你的文本需求。

一文了解生成式AI视频

关键部分剪辑

将长视频转化为所需的短视频,适用于访谈节目类。涉及技术可能包括使用OpenCV和TensorFlow来分析视频内容,识别关键片段,然后使用MoviePy来剪辑和组装这些片段,形成短视频。

一文了解生成式AI视频

视频高清化

通过超分算法、降噪算法、以及插帧等功能共同实现视频质量的提升。

一文了解生成式AI视频

生成式AI视频技术

大家可以感受到,上述AI视频的应用可谓是五花八门,但底层的技术不外乎以下3种:GAN、Diffusion Model以及这两年在大模型领域大火的Transformer架构。

当然也包括变分自编码器(Variational Autoencoder, VAE)和Diffusion的前身DDPM(Denoising Diffusion Probabilistic Model),我们这里不详细展开,主要用通俗的语言介绍前面3种。

1.生成式对抗网络 GAN

Generative adversarial networks

一文了解生成式AI视频

顾名思义,GAN包括一个生成器和一个判别器。生成器就像一个画家,根据文字描述尽力画出真实般的图像,而判别器就像一个鉴定师,努力分辨哪些画是真实的哪些是生成器画的。两者不断竞争,生成器变得越来越擅长画出逼真图像,判别器变得越来越聪明分辨真伪,最终实现较为逼真的图像生成。

“是不是很像小时候老师拿着戒尺在旁边指导你学习”

GAN也同时存在一些短板:

失真:与扩散模型生成的图像相比,GAN往往有更多的伪影和失真。

训练稳定性:GAN的训练过程涉及一个生成器和一个判别器的对抗过程,这可能导致训练不稳定和难以调优。相比之下,扩散模型的训练过程更加稳定,因为它们不依赖于对抗训练。

多样性:相比于GAN,扩散模型在生成图像时能够展现出更高的多样性,这意味着它们能够产生更加丰富和多变的图像,而不会过分依赖于训练数据集中的特定模式。

大约在2020年左右,扩散模型在学术界和工业界开始获得更多的关注,尤其是当它们在图像生成的各个方面表现出色时。

但这并不意味着GAN已经完全过时,在风格迁移和超分方面也得到广泛的探索和应用。

2.扩散模型 Diffusion Model

Diffusion Models 的灵感来自 non-equilibrium thermodynamics (非平衡热力学)。理论首先定义扩散步骤的马尔可夫链,以缓慢地将随机噪声添加到数据中,然后学习逆向扩散过程以从噪声中构造所需的数据样本。

通俗地解释扩散模型的工作方式有点像雕刻家,从一块粗糙的石头(或者在我们的例子中是一张模糊、无序的图像)开始,逐渐细化和调整,直到形成一个精细的雕塑(即清晰、有意义的图像)。

目前我们熟知的Runway、Pika其实都是基于Diffusion模型的。但是其中细节又有所不同。对于这两个产品存在以下两种技术架构:

Pika – Per Frame

在“Per Frame”架构中,扩散模型针对视频中的每一帧单独处理,就像它们是独立的图片一样。

这种方法的优势在于它可以保证每一帧的图像质量。然而无法有效地捕捉视频中的时间连贯性和动态变化,因为每一帧都是独立处理的。

因此会损失一定的精度,我们看到Pika早期生成视频有点“糊”可能也与此有关。

一文了解生成式AI视频

Runway – Per Clip

“Per Clip”架构则是将整个视频片段作为一个单一的实体来处理。

在这种方法中,扩散模型考虑了视频中帧与帧之间的时间关系和连贯性。

其优势在于能够更好地捕捉和生成视频的时间动态,包括运动和行为的连贯性。更完整地保留了训练视频数据的精度。

然而,“Per Clip”方法可能需要更复杂的模型和更多的计算资源,因为它需要处理整个视频片段中的时间依赖性。

对比Pika的Per Frame架构,Per Clip更完整地保留了训练视频素材的信息,成本较高的同时天花板也相对较高。

一文了解生成式AI视频

由于扩散模型本身就是计算密集型的,所以在生成长视频时,这种计算负担会急剧增加,并且时间一致性也是对扩散模型一项不小的考验。

而Transformer架构特别擅长处理长序列数据,这对于生成长视频来说是一个重要优势,它们能够更好地理解和维持视频内容在时间上的连贯性。

3.Transformer架构(LLM架构)

在语言模型中,Transformer通过分析大量文本来学习语言的规则和结构,进而通过概率推演出后续文本。

当我们将这种架构应用于图像生成时,相比于扩散模型是从混乱中创造出秩序和意义,Transformer在图像生成中的应用类似于学习和模仿视觉世界的“语言”。例如,它会学习颜色、形状和对象如何在视觉上组合和交互,然后使用这些信息来生成新的图像。

一文了解生成式AI视频

Transformer架构有其独特优势,包括明确的密度建模和更稳定的训练过程。它们能够利用帧与帧之间的关联,生成连贯且自然的视频内容。

除此之外,diffusion Model目前最大的模型也就 7 到 8 个 billion 参数规模,但 transformer 模型最大可能已经达到 trillion 级,完全两个量级。

然而,自Transformer架构面临着计算资源、训练数据量和时间的挑战。相比于扩散模型,需要更多的模型参数,对计算资源和数据集的需求相对更高。

所以在早期算力以及数据量紧凑的时候Transformer架构生成视频/图像没有得到充分的探索和应用。

AI视频外延技术及应用

“照片跳舞”——Animate anyone

基于扩散模型+Controlnet相关等技术

一文了解生成式AI视频

技术概述:网络从多帧噪声作为初始输入开始,采用基于Stable Diffusion (SD)设计的去噪UNet结构。和我们熟悉的Animatediff类似,再结合类似Controlnet的姿势控制和一致性优化等技术。

网络核心包括三个关键部分:

1、ReferenceNet,负责编码参考图像中角色的外观特征,确保视觉一致性。

2、Pose Guider,用于编码运动控制信号,实现角色动作的精确控制;

3、Temporal Layer,它处理时间序列信息,保证角色运动在连续帧之间的流畅性和自然性。这三个组件的结合使网络能够生成在视觉上一致、动作上可控且时间上连贯的动画角色

一文了解生成式AI视频

“真人视频转化为动漫”——DomoAI

基础模型也是基于Diffusion Model,另外结合了风格迁移。

一文了解生成式AI视频

第一步ControlNet Passes Export,用于提取控制通道,作为制作初始原始动画帧的基础。

第二步是Animation Raw – LCM,这是工作流的核心,主要用于渲染主要的原始动画。

第三步是AnimateDiff Refiner – LCM,用于进一步增强原始动画,添加细节、放大和细化。

最后是AnimateDiff Face Fix – LCM,专门用于改善经过细化工作流处理后仍不理想的面部图像。

“AI视频换脸”——Faceswap

总体上,换脸主要分为以下三个过程:人脸检测-特征提取-人脸转换-后处理

一文了解生成式AI视频

AI视频换脸技术,通常被称为“深度伪造”(Deepfake),基于深度学习,特别是使用了类似GAN(生成对抗网络)或自编码器的模型。因为该技术使用风险较大,因此不在这里详细介绍。

AI视频技术展望

“未来的大一统?”——Transformer架构

不仅能看得见,而且能听得着

Google近期发布了一个专注于视频生成的VideoPoet,能够一站式生成视频、音频、支持更长的视频生成,还对现有视频生成中比较普遍动作一致性提供了很好的解决方案,尤其是大范围 motion 的连贯性。

一文了解生成式AI视频

VideoPoet和绝大多数视频领域使用模型不同,没有走 diffusion 的路线,而是沿着 transformer 架构开发,将多个视频生成功能集成到单个 LLM (大语言模型 Transformer架构)中,证明了transformer除了有杰出的文本生成能力,并且在视频生成上拥有极大潜力。此外还能同时生成声音,并且支持语言控制修改视频。

一文了解生成式AI视频

VideoPoet的小熊打鼓(含声音)

“diffusion 最大的模型也就 7 到 8 个 billion 参数规模,但 transformer 模型最大可能已经达到 trillion 级。在语言模型方面,大公司花了 5 年时间、投入数百亿美元,才把模型做到现在规模,而且,随着模型规模的增大,大模型架构成本也成倍增长。”谷歌科学家蒋路如是说。

本质上说基于大语言模型Transformer架构的视频模型仍是一个”语言模型”,因为训练和模型框架没有改变。只是输入的“语言”扩展到了视觉等其他模态,这些模态也可以离散化表示为符号。

早期受到资源、算力、视频数据等多方面限制,我们没有看到Transformer在视频生成的杰出效果。但是最近几年随着GPT带来的大语言模型的飞速发展以及资金支持。未来“一站式”文本、图像、声音、视频的多模态大模型将备受瞩目。

AI视频也即将迎来GPT时刻?

值得注意的是,Transformer虽然是目前最当红的构架,具有高度可扩展和可并行的神经网络架构。但Transformer中完全注意力机制的记忆需求,与输入序列的长度呈二次方关系。在处理视频等高维信号时,这种缩放会导致成本过高

因此,研究者提出了:窗口注意力潜在Transformer (W.A.L.T) :一种基于Transformer的潜在视频扩散模型 (LVDM) 方法。也可以说是:

Transformer 与 Diffusion Model并存

WALT 是与李飞飞老师和其学生合作的项目,WALT 基于 diffusion,但也使用了 transformer 。可谓是融合了扩散模型的优势和Transformer的强大功能。

在这种结构中,扩散模型负责处理视频图像的生成和质量细节,而Transformer则利用其自注意力机制来优化序列之间的关联性和一致性。

这样的结合使得视频不仅在视觉上更加逼真,而且在动作过渡上也更加平滑和自然。所以未来1-2年很可能是Transformer 与 Diffusion Model并存的一个状态。

AI视频技术面临的挑战

在AI视频技术领域,AI视频知名创作者@闲人一坤提出了几个关键的挑战。

首先,生成视频的清晰度需要进一步提高,以达到更高的视觉质量。其次,保持视频中人物的一致性是一个难题,这涉及到对人物特征和动作的准确捕捉与再现。最后,AI视频的可控性还有待增强,特别是在三维空间中的调整能力,目前的技术大多限于二维微调,无法有效在Z轴维度进行调整。这些挑战指出了AI视频技术发展中需要关注和改进的关键领域。

最后,也希望AI视频发展能够不断突破现有限制,为创作者带来更多灵感和可能性。

让我们一起期待AI视频的GPT时刻到来!

文章来自于微信公众号 “硅星人Pro”,作者 “DrQ

关联网址

关联标签

文章目录

发评论,每天都得现金奖励!超多礼品等你来拿

后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则
暂无评论...