清华系多模态大模型公司刚刚融了数亿元！放话“今年达到Sora效果”

2024-03-12 阅读 32 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

2022年已提出类DiT架构U-ViT

在扩散模型方面，生数科技团队是国内率先开启该方向研究的团队，成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

2022年9月，生数创始成员提出了基于Transformer的网络架构U-ViT时，U-ViT就在千万至数亿参数量级范围内验证了极强的可扩展性（scaling up）。

这项工作在CVPR 2023发表，早于DiT。

2023年3月，团队又开源了全球首个基于Diffusion Transformer架构（U-ViT）的多模态扩散大模型UniDiffuser，在参数量和训练数据规模上与Stable Diffusion直接对齐。

清华系多模态大模型公司刚刚融了数亿元！放话“今年达到Sora效果”

从架构上来看，UniDiffuser比最近公开论文的Stable Diffusion3（采用DiT架构）领先了一年。

此外，除了单向的文生图以外，Unidiffuser支持更通用的图文任务，能够实现图生文、图文联合生成、图文改写等多种功能。

清华系多模态大模型公司刚刚融了数亿元！放话“今年达到Sora效果”

持续进行Scale up

在统一化架构的思路下，生数科技持续进行Scale up。

在图文模型的训练中，其模型参数量从最早开源版的1B不断扩展至3B、7B、10B及以上，使得模型在美学性、多元风格、语义理解等方面实现快速稳定的提升。

同时在此基础上，通过拓展空间维度和时间维度，逐步实现3D生成和视频生成模型的训练。

依托底层U-ViT架构的创新尝试，截至2023年9月，生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型（闭源版），全链路自主训练、自主研发，在图像生成、3D生成、视频生成等多项任务中位居前列。

清华系多模态大模型公司刚刚融了数亿元！放话“今年达到Sora效果”

目前的成果是，生数的3D生成，已经可实现高精度与最快10秒级的模型生成。

此外，生数团队还推出全球首个4D动画生成、可控3D场景编辑等工作。

而视频生成方面，也已实现短视频的编辑与生成能力，在画面美观度、连贯性方面实现了突破。

清华系多模态大模型公司刚刚融了数亿元！放话“今年达到Sora效果”

近期将重点突破长视频生成能力

在商业化落地方面，依托于MaaS（模型即服务）能力，生数科技在2B、2C端同时发力。

一方面以API的形式向B端机构直接提供模型能力，另一方面打造垂类应用产品，按照订阅等形式收费。

目前公司已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作，开放模型服务，提供AIGC个性化体验、定制化内容生产等方面的能力。

去年，面向艺术设计、游戏制作、影视动画、社交娱乐等创意领域，生数科技上线了两款工具产品：

视觉创意设计平台PixWeaver
3D资产创建工具VoxCraft

而学术层面上，团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇，其中提出的免训练推理算法Analytic-DPM、DPM-Solver等突破性成果，获得ICLR杰出论文奖，并被OpenAI、苹果、Stability.ai等机构采用，并被DALL·E 2、Stable Diffusion等项目采用。

那么，接下来的路是什么？

谈到对未来的规划，生数科技始终坚持“原生多模态”方向。

一边，是对产品端持续迭代；

另一边，则是在基础模型层面持续优化，主要是提升语义理解、可控性、美观度方面的生成效果。

其实，Sora出现前，生数内部主要聚焦于短视频，但现在公司会投入更多资源在长视频上，架构、数据使用调优方面，团队已经做过不少探索，也踩过许多坑（很多现在都已经解决了）。

但OpenAI砸大钱捧出一个Sora，验证了这条路的正确性，也打消了团队的许多顾虑，“目前的视频生成长度在4-5秒左右，我们近期将重点突破长视频生成能力……尤其长视频画面的连贯性，我们还在做一系列攻克工作”。

文章来自于微信公众号“量子位”（ID: QbitAI)，作者 “衡宇”

Midjourney能让角色保持一致了！网友连夜实测：改变游戏规则

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

清华系多模态大模型公司刚刚融了数亿元！放话“今年达到Sora效果”

2022年已提出类DiT架构U-ViT

持续进行Scale up

近期将重点突破长视频生成能力

文章来自于微信公众号“量子位”（ID: QbitAI)，作者 “衡宇”

Midjourney能让角色保持一致了！网友连夜实测：改变游戏规则

国产Sora来了，4K 60帧15秒视频刷新纪录！500亿美元短剧出海市场被撬动

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

清华系多模态大模型公司刚刚融了数亿元！放话“今年达到Sora效果”

2022年已提出类DiT架构U-ViT

持续进行Scale up

近期将重点突破长视频生成能力

文章来自于微信公众号“量子位”（ID: QbitAI)，作者 “衡宇”

Midjourney能让角色保持一致了！网友连夜实测：改变游戏规则

国产Sora来了，4K 60帧15秒视频刷新纪录！500亿美元短剧出海市场被撬动

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿