全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

2024-07-04 阅读 51 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

合作上影，更懂中国风的图像生成大模型来了！

或许你已经发现了，游戏中的画风透露着一股浓浓的国风味，仿佛跟童年的记忆似曾相识。

没错，这个名为「AI+大闹天宫」的互动游戏，是阶跃星辰的一次惊喜跨界，合作对象就是创造了无数中国人童年回忆的上海美术电影制片厂。

2024年，正值上影代表作《大闹天宫》制作完成60周年。

为了纪念这个里程碑式的国民动画片，阶跃星辰与上影携手，进行了一次AI和内容创作融合的极致探索。

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

当AIGC、大模型技术和传统的中国动画结合，会碰撞出怎样的火花？

在WAIC现场，一家国产AI初创黑马——阶跃星辰给全场观众送上了这样一份大礼。

路过的参展群众对这个游戏爱不释手，现场火爆至极。

而在游戏的背后，阶跃星辰调用了多款自研的Step系列大模型，并融合了图像理解、风格迁移、图像生成、剧情创作等多种能力，丰富立体地展现了行业领先的多模态水平。

当最先进的AIGC技术与《大闹天宫》情境深度融合，栩栩如生的效果加上个性化的交互过程，换了谁都得深深感叹一句：爷青回！

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

还等什么，赶快扫码体验吧！

不仅仅是这款「AI+大闹天宫」，Step-1X中融入的「国风」元素随处可见。

为了打造更理解国人审美的图像生成模型，Step-1X在训练过程中结合了当下的「国潮」，对中国元素进行深度优化，让AI生成的内容也能呈现高质量的「中国风」。

攀登AGI巅峰，万亿参数和多模融合缺一不可

大模型发展到了今天，所有的业内人士都发出了这个疑问：Scaling Law到头了吗？

从下图看，至少在未来几年，Scaling Law仍会奏效。

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

在阶跃星辰创始人姜大昕看来，接下来，依然是模型参数量决定模型能力上限，而Scaling Law全面迈入万亿参数，就是通向AGI的另一核心了。

现在到处都在说AGI，但哪条是通往AGI的坦途，业内大佬一向争论不一。

在LeCun看来，LLM完全是把全世界带向了歧途，浪费巨大的算力资源在现有的LLMs上，远不如新想法和新架构更有效。

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

但更多大佬，显然对目前的路线十分乐观，Sam Altman、马斯克、Anthropic联创&CEO Dario Amodei、DeepMind创始人Hassabis，都认为AGI会在未来十年内发生。

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

前OpenAI研究员看来，2027年实现AGI的可能性极大

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

而姜大昕认为，多模态理解和生成的统一，是通向AGI的必经之路。

第一阶段，语言、视觉、声音不同模态独立发展，模态之间没有关系，每个模型所要做的是学习如何更好地表征各自模态的特点。

第二阶段，多种模态已开始走向融合，然而融合并不彻底，主要原因正是理解任务、多模生成任务分开，造成模型的理解能力强但生成能力弱，或者反之。

第三阶段，则是将生成和理解统一在一个模型里。

当多模态理解和生成统一后，就可以和「具身智能」结合起来。把模型作为机器人或者一个设备的大脑，让它去探索这个世界，与世界进行交互。

国产黑马，连甩三个更新

正如上文所述，要攀登AGI的高峰，「万亿参数」和「多模」这两大抓手，二者缺一不可。

而这些，也共同组成了Step系列模型的核心亮点。

既一年肝出万亿参数MoE后，这家年轻的初创再度开启「硬核模式」，一口气连甩三个更新——

Step-2万亿MoE语言大模型正式版、 Step-1.5V多模态大模型、Step-1X图像生成大模型。

要知道，就在3月份，阶跃星辰才刚刚发了3个模型，距离今天3个新模型的发布，才区区100天。

Step-2大语言模型

Step-2大语言模型光是在参数规模上就达到了万亿级别，直接跻身国际顶尖模型的行列。

在数理逻辑、编程、中文知识、英文知识、指令跟随等方面，Step-2的能力和使用体验可以全方位逼近GPT-4。

从千亿模型扩展到万亿参数，并不是简单的「大力出奇迹」，而是需要跨过技术上的「分水岭」，对各个维度的要求都是水涨船高。

一旦其中任何维度出现短板，Scaling Law都将不再适用，出现「只投入，不产出」的尴尬局面。

为了训出强悍的Step-2，技术团队在算法和系统方面都做出了大量的关键创新。

自主研发，全面创新

阶跃星辰创始人姜大昕博士表示，模型扩大到万亿级别时，MoE几乎是必选项，这是权衡了性能、参数量、训练成本、推理成本等各个维度后的最佳选择。

要训练如此大规模的MoE模型，有两条路可走：一是将已有模型进行向上复用（up-cycle）。

这个方案最大的好处，就在于省钱省力，算力需求低、训练效率高，但会限制模型能力的上限，容易造成比较严重的专家同质化。

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

为了达到最优性能，阶跃星辰团队选择迎难而上，没有采用第一种方案，而是完全自主研发，从头开始。

Step-2的架构中采用了部分专家共享参数、异构化专家等一系列新颖的设计，充分利用万亿参数。

虽然在MoE架构中，每次训练或推理只会激活部分参数，但背靠万亿总量，激活的参数量也能超越大部分稠密模型。

当参数增长到万亿级别时，训练效率至关重要，这离不开高效且稳定的系统部署。

高效，意味着GPU的使用效率高，让有限的硬件输出最多的算力；稳定，意味着训练过程需要持续进行，不能轻易被故障打断。

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

系统的稳定有多重要？

即使每张GPU日夜不停连续跑两个月才出现一次故障，放在万卡集群中，相当于平均每10分钟就有一张卡出问题。

如果没有自动的故障检测和恢复机制，每张卡出问题时都要恢复检查点、重启训练，不仅工程师不用睡觉了，模型的训练周期更是成倍拉长。

在Step-2训练过程中，阶跃星辰的系统团队突破了 6D并行、极致显存管理、完全自动化运维等关键技术，从高效、稳定两个层面同时发力，才能在3个月的时间内发布新模型。

Step-1.5V多模态大模型

而多模态大模型的发布，则体现了阶跃星辰在多模理解和生成统一的技术路线上的快速突破。

这一次，以万亿参数的Step-2为基座，阶跃星辰训练出了千亿参数的多模态大模型Step-1.5V。

可以说，能做到如此理解能力的多模态大模型，在国内并不多见。

创新图文混排训练，让感知能力全面up

识别复杂的图表、流程图一向是多模态模型的著名难点。训练过程中，研发团队创新了「图文混排」的方法，成功克服了这个问题。

Step-1.5V不仅能游刃有余地准确理解各类图像，处理超高分辨率和极限长宽比也毫无障碍。

不仅如此，模型还从二维图像的训练中发展出了三维的空间能力，能从一张图片中感知到物理空间和物体的几何位置。

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

万亿参数模型当老师，推理大幅提升

有了万亿参数模型当老师，Step-1.5V推理能力的提升也很惊人。

根据图像内容，它进行各类高级推理任务，解答数学题、编写代码、创作诗歌都是一绝。

视频理解超神，人物情绪精准识别

此外，Step-1.5V的视频理解能力也相当出色，做到了智商、情商同步提升。

对视频中出现的人、物体与环境，Step-1.5V不但可以准确识别，还「涌现」出了高超的共情能力，稳稳get到整体氛围和人物情绪。

Step-1X图像生成大模型

在多模态这条道路上，完成了感知和理解，下一步就是高质量的生成了。

本届WAIC大会上，Step-1X图像生成大模型首次公开亮相，在多模理解和生成统一的技术路线上继续快速突破。

全链路自研DiT

Step-1X采用了团队全链路自研的DiT架构，将扩散模型与Transformer相结合，且发布了600M、2B、8B等3种不同规格的版本，完美适配不同场景下的生成效果和推理效率。

当前的图像生成领域，可控性是一大难点，即使是DALL-E、Stable Diffusion这样的知名模型，也很难让图片忠实于用户的提示要求。

Step-1X为此进行了特别优化，重点发力模型的语义对齐能力，实现更好的指令跟随。让图像生成做到「言出法随」，让视觉效果离我们的想象更进一步。

荣获WAIC 2024 SAIL之星

作为世界人工智能大会的最高奖项，Super AI Leader的评选异常激烈：不仅吸引了众多国内外合作机构，囊括了大批优质创新项目，而且今年的国际项目数量更是创下新高。

而阶跃星辰则凭借着Step系列通用大模型在技术上的创新和广泛的应用落地，荣获了WAIC 2024 SAIL之星的称号。

AI应用与生态

有了模型之后，接下来就到应用阶段了。

对于二者的关系，创始人姜大昕博士的比喻非常有趣：模型是灵魂，应用是皮囊。好看的皮囊千篇一律，有趣的灵魂万里挑一。

两款C端大模型产品「跃问」和「冒泡鸭」，就是阶跃星辰交出的最好答卷。

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

AI问答助手跃问：https://yuewen.cn

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

AI互动平台冒泡鸭：https://maopaoya.com/

从团队成立的第一天开始，姜大昕博士就确定了模型和应用「双轮驱动」的战略。

在微软的多年经验让他深知，模型需要应用作为牵引、补充数据，应用也需要深度绑定模型。只有加持硬核模型，应用才能做到极致。

「AI+大闹天宫」让我们看到了团队的产品创意，而支撑起AI应用的「灵魂」——Step系列大模型，则是团队对于攀登Scaling Law的一系列成功践行。

最低调的AI创业公司

阶跃星辰这个名字，在AI从业者听来也许有一种说不清道不明的熟悉感。

没错，这四个字的确与人工智能有着深厚的渊源。创始人表示，起名的灵感来自阶跃函数（Step Function）——神经网络中最早的激活函数。

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

激活函数那么多，为什么独独青睐阶跃函数？

一方面，「阶跃」本身就有跳变、跃迁、超线性增长的意思，代表着AI行业的飞速发展。

另一方面，也会让人想到step by step这句话，仰望星空的同时脚踏实地，扎实地做好手上工作，已经内化为公司基因中不可分割的一部分。

阶跃星辰，寓意着以阶跃之力，赴星辰大海。

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

但你可能会非常疑惑，明明技术实力如此强劲，怎么公司名字却几乎没听说过？

早在一年多以前的2023年4月，阶跃星辰就正式成立。但在「百模大战」如火如荼、各类大模型层出不穷的那一年中，团队却一反常态地选择了「隐身」。

没有大肆宣传造势，蛰伏一年钻研技术，直到沉淀出有强劲实力的模型，不鸣则已、一鸣惊人。

今年3月，Step-1和Step-1V大模型横空出世，惊艳了国内所有的AI从业者。

距上次发布刚过去短短的三个月，我们就看到了又一轮技术更新的成果，模型能力全方位提升。这种迭代速度，即使是在初创公司行列也是首屈一指。

阶跃星辰这种低调钻研技术的风格，与核心创始团队有密不可分的联系。

公司创始人及CEO姜大昕博士曾任微软全球副总裁，微软亚洲互联网工程院首席科学家，同时也是算法团队的负责人。

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

自成立起，阶跃星辰就做出了综合布局，坚定地相信Scaling Law且集中全力投入。

下一步计划

万亿+多模可以说是2024大模型格局的分水岭。推出万亿参数模型后，阶跃星辰的下一步会怎么走？

创始人姜大昕曾在采访中表示，希望模型朝着AGI方向努力，一是参数规模进一步扩大，二是从能力上，能够真正统一多模态的理解和生成。

团队所坚定信仰的Scaling Law会有失效的一天吗？

姜大昕博士认为，Scaling Law在肉眼可见的未来还不会触顶，我们至少还可以继续攀登一个数量级。AGI 是阶跃星辰注定踏上的征途，也必将到达。

文章来自于微信公众号“新智元”，作者 “新智元”

AI助攻「菜鸟数学家」解决忙碌海狸问题，陶哲轩转发分享

关联网址

关联标签

#AI #国产AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

合作上影，更懂中国风的图像生成大模型来了！

攀登AGI巅峰，万亿参数和多模融合缺一不可

国产黑马，连甩三个更新

Step-2大语言模型

自主研发，全面创新

系统的稳定有多重要？

Step-1.5V多模态大模型

创新图文混排训练，让感知能力全面up

万亿参数模型当老师，推理大幅提升

视频理解超神，人物情绪精准识别

Step-1X图像生成大模型

全链路自研DiT

荣获WAIC 2024 SAIL之星

下一步计划

AI助攻「菜鸟数学家」解决忙碌海狸问题，陶哲轩转发分享

8人半年肝出开源版GPT-4o，0延迟演示全网沸腾！背后技术揭秘，人人免费用

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

265 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

合作上影，更懂中国风的图像生成大模型来了！

攀登AGI巅峰，万亿参数和多模融合缺一不可

国产黑马，连甩三个更新

Step-2大语言模型

自主研发，全面创新

系统的稳定有多重要？

Step-1.5V多模态大模型

创新图文混排训练，让感知能力全面up

万亿参数模型当老师，推理大幅提升

视频理解超神，人物情绪精准识别

Step-1X图像生成大模型

全链路自研DiT

荣获WAIC 2024 SAIL之星

下一步计划

AI助攻「菜鸟数学家」解决忙碌海狸问题，陶哲轩转发分享

8人半年肝出开源版GPT-4o，0延迟演示全网沸腾！背后技术揭秘，人人免费用

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿