还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

2024-06-20 阅读 39 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

△画质已压缩

亦或是生动有趣的动画：

还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

流畅的变焦效果：

还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

△画质已压缩

以上生成效果，全部来自免费开源的潞晨Open-Sora。

从3月发布以来，潞晨Open-Sora一直热度不减，GitHub上揽星已经17.5K。

（GitHub：https://github.com/hpcAItech/Open-Sora）

还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

英伟达入股的AI公司Lambda Labs，也基于潞晨Open-Sora模型权重打造了数字乐高宇宙。

还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

而在公布模型权重和训练细节后，潞晨Open-Sora还在持续开源中。

最近，其幕后团队在GitHub上晒出了技术路线，进一步披露了最新版本模型的训练核心内容报告地址：https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md。

具体细节，一起来看。

还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

训练成本再降低

最新版本的潞晨Open-Sora在此前基础上引入了视频压缩网络（Video Compression Network）、更优扩散模型算法、更多的可控性，并利用更多数据训练出了1.1B扩散生成模型。

能在保障模型输出质量的同时，降低计算资源的消耗。

其中，引入视频压缩网络是OpenAI的Sora同款方法。它能在时间维度上进行4倍压缩，无需抽帧，可以使用原始FPS生成视频。

考虑到训练一个3D VAE的成本太高，团队尝试让模型重新利用在2D VAE中学习到的知识。在2D VAE压缩后，时间维度上的相邻特征仍然高度相关。

因此团队提出了一个简单的视频压缩网络（即VAE），它能首先在空间维度上实现8×8倍的压缩，再从时间维度上压缩4倍。

该网络框架如下：

还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

具体训练过程分为三步：

1、前380K步，在8个GPU上训练，冻结2D VAE的权重，只训练3D VAE部分，即对时间维度的压缩重建。训练目标为对2D VAE encoder输出的特征进行时间维度的压缩重建，并添加一个identity loss使得新训练的3D VAE输出的特征尽可能和原始2D VAE的特征相似。团队发现加上这种identity loss可以很快让整个VAE达到良好的压缩重建性能，并在下一阶段收敛速度快很多。

2、接下来的260K步，移除掉identity loss，继续单独训练3D VAE部分。

3、最后540K步，由于发现只重建2D VAE特征并不能进一步提升性能，所以解冻了2D VAE权重，开始训练整个VAE模型来重建原始视频。该阶段在24个GPU上完成。

其中前两个阶段的训练数据使用20%图像和80%视频，视频用17帧进行训练；最后一个阶段用34帧的随机帧数视频进行训练，使VAE模型可以压缩任意长度的视频。训练和推理的代码已开源。

Rectified flow和模型适配

另外，基于最新Stable Diffusion 3的开源成果，提供了一套完整的训练解决方案。

Stable Diffusion 3通过采用了rectified flow技术替代 DDPM，显著提升了图片和视频生成的质量。

潞晨Open-Sora团队带来的技术包括：

简单易用的整流（rectified flow）训练

用于训练加速的 Logit-norm 时间步长采样

基于分辨率和视频长度的时间步长采样

通过这些技术的整合，不仅能够加快模型的训练速度，还能显著减少推理阶段的等待时间，确保用户体验的流畅性。

此外，这套训练方案还支持在推理过程中输出多种视频宽高比，满足了多样化场景下的视频素材需求，为视频内容创作者提供了更加丰富的创作工具.

此外，技术报告中还透露了更多模型训练的核心细节，包括数据清洗和调优的使用技巧。同时团队构建了更完善的模型评估体系，保障模型的稳健性和泛化能力。

通过提供可自行一键部署的Gradio应用，并支持调节输出的运动分数、美学分数和镜头移动方式等参数，还能一键通过GPT-4o 自动修改指令并支持中文输入。

还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

传送门

文生视频爆火后，潞晨Open-Sora持续开源为该领域发展做出了贡献。

潞晨Open-Sora可零门槛免费获得模型权重、全套训练代码，沉浸式游戏、创意广告、制作影视大片……都能来试试~

还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

最后，想要了解潞晨Open-Sora更多详情，可访问GitHub主页：

https://github.com/hpcaitech/Open-Sora

参考链接：

[1] https://wandb.ai/lambdalabs/lego/reports/Text2Bricks-Fine-tuning-Open-Sora-in-1-000-GPU-Hours—Vmlldzo4MDE3MTky

[2] https://hpc-ai.com/blog/open-sora-from-hpc-ai-tech-team-continues-open-source-generate-any-16-second-720p-hd-video-with-one-click-model-weights-ready-to-use

文章来自于微信公众号 “量子位”，作者 “允中”

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

关联网址

关联标签

#AI #内容创作者

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3697 用户在看

AI写作网站自动的生成文章可以用吗？

272 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

197 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

193 用户在看

还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

△画质已压缩

△画质已压缩

训练成本再降低

考虑到训练一个3D VAE的成本太高，团队尝试让模型重新利用在2D VAE中学习到的知识。在2D VAE压缩后，时间维度上的相邻特征仍然高度相关。

Rectified flow和模型适配

传送门

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

全球市值第一！英伟达3.3万亿美元登AI王座超微软，老黄却直言忧心忡忡

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3697 用户在看

AI写作网站自动的生成文章可以用吗？

272 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

197 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

193 用户在看

还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

△画质已压缩

△画质已压缩

训练成本再降低

考虑到训练一个3D VAE的成本太高，团队尝试让模型重新利用在2D VAE中学习到的知识。在2D VAE压缩后，时间维度上的相邻特征仍然高度相关。

Rectified flow和模型适配

传送门

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

全球市值第一！英伟达3.3万亿美元登AI王座超微软，老黄却直言忧心忡忡

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿