大模型的中场战事：CoE or MoE?

2024-08-03 阅读 28 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

01 一当暴力不再有奇迹，

大模型正陷入技术的诅咒

绝对的大参数，或许并不是大模型落地的唯一解法。这句话，正逐渐成为大模型产业的共识。·

其中，参数做大路上的第一个隘口，正是这场盛宴中最大的获胜者——英伟达。

最近，一份出自Meta 研究报告显示：其最新的 Llama 3 405B 参数模型在 16384 个 Nvidia H100 GPU 组成的集群上训练时，54 天内经历了 419 次意外，训练期间平均每三个小时就发生一次故障。与此同时，每次的单个 GPU 故障，都会中断整个训练过程，导致训练重新启动。

简单翻译来说，当前的大模型参数量，已经接近硬件所能支撑的极限。即便有无穷无尽的GPU，也不再能解决大模型训练中的算力模型。如果朝着扩大参数的路上继续狂奔，那么训练的过程，将变成西西弗斯推石头式的无限重来。

硬件增大了大模型扩张的难度，细分场景中，智能程度不再与参数量成正比，则从实用角度为这场暴力的欢愉画上了一个大大的问号。

大模型的场景正不断变得复杂化和专业化、碎片化，想要一个模型既能回答通识问题，又能解决专业领域问题，几乎异想天开。

一个国内大模型厂商最爱使用的技术比较维度是：与GPT4比诗词赏析和弱智吧段子，几乎无一例外，无论模型大小，开源模型套壳与否，国产大模型全数吊打“世界第一”。甚至，在最基础的鲁迅与周树人的关系这样的文学常识题上，最优秀的大模型，也比不过一个最传统的搜索引擎。

回归到实际应用中，商业化的不可能三角，彻底为参数信徒们兜头浇来一盆凉水。

在实际应用中，除了模型的智能程度，产品经理们还需考虑速度与成本两大因素。通常来说，在问答中1秒内的响应速度，99%的准确率，以及能打平成本的商业模式，会是一个大模型生存的必要条件。

但使用大参数路线推高智能，往往也就意味着智能程度越高，产品的应答速度越慢，成本越高，反之亦然。

如果一味由着参数无限制扩张，AI也将无可避免的变成一场资本的战争，但扩张的代价，却远远超过历史上的任何一场同等阶段的商业比拼……对已经踩下油门的玩家来说，只有把筹码加到对手跟不起的水平，才能让自己输得不会太惨。

于是，面对隐约可及的天花板，行业的课题开始转向：如果万能模型不存在，暴力无奇迹，行业要去往哪里？

02 大模型的T型车时刻：

CoE or MoE？

当一个大模型同时完成通用+专业的可行性被堵死，多模型联合分工成为了行业第二阶段的主旋律。

1913年,福特公司创造性的将屠宰线思路引入汽车产业，开发出了世界上第一条流水线。汽车生产，自此从老师傅手工组装，迈入工业化进程，一辆汽车的生产时间压缩近60倍，售价降低也足足一倍有余。汽车制造，自此迈入一个新的时代。

同样的T型车时刻，也发生在大模型产业。

以最典型的场景翻译来说，一个好的翻译，应达到信达雅三层境界。但在大模型的世界里，传统翻译大模型只能做到信，达与雅，则依靠写作大模型才能完成。

但关于何如进行多模型分工，行业则分成了旗帜鲜明的合纵派与连横派。

合纵派的技术思路是 MoE。

所谓MoE（Mixture-of-Experts），翻译成中文就是混合专家模型，将多个细分领域的专家模型组合成一个超级模型。早在2022年，Google 就提出了MoE大模型Switch Transformer，使得其凭借1571B的参数量，也能在预训练任务上显示出比 T5-XXL（11B）模型更高的样本效率（更准确，且计算成本没有显著提升）。

不仅如此，美国知名骇客George Hotz与PyTorch的创建者Soumith Chintala也先后表示，GPT4也是由8个220B参数量的MoE模型组成的 1760B参数大模型，算不严格意义的“一个”万亿模型。

然而，这种8合一的思路，也导致了MoE的设计与每次升级迭代都需要花费巨大的资源。类似日常爬山，爬一座8848m高的珠穆朗玛峰的难度，远不是爬8次海拔1108米的雁荡山耗费体力的加和。因此，有能力参与的，往往都是8项全能其具备绝对领先优势的AI技术龙头。

于是，随着MoE逐渐成为寡头的游戏，一种新的技术思路走上台前——连横派的CoE。

CoE（Collaboration-of-Experts），即专家协同模型。通俗来说，一个入口同时接入多家模型，而入口会在模型分析之前，增加一个意图识别环节，然后才进行任务派解，决定任务是由哪款模型起作用，或者哪几款模型打配合。相对于MoE，CoE最大的优势是，各个专家模型之间可以彼此协同工作，但不存在绑定关系。

大模型的中场战事：CoE or MoE?

相比MoE，CoE的每个专家模型之间有更多的协同，更精准的分工，并且更灵活、更专业细分。这一思路，相比MoE，具有更高的效率，和更低的API接口和Token使用成本。

那么，MoE与CoE哪种路线会更占上风？

03 另一种解题思路：

什么决定了用户的智能体验？

当周鸿祎一袭红衣转型AI教父时，360内部，关于如何CoE与MoE路线的论证，也在最近一年多时间里反复上演。

如果走MoE，360多年技术的积累，足以支撑打完这场仗。

而走CoE，就意味着与更多的大模型厂家同分一杯羹。

“三个臭皮匠，顶一个诸葛亮”给了360集团副总裁梁志辉启发，要将宝压在CoE上：

一家企业，哪怕做到Open AI式“8项全能”，依然不免存在短板。但如果将最优秀的大模型企业能力，通过CoE能力，则意味着优势互补与真正十八项全能的实现。

测评结果显示，基于360 CoE AI能力的AI助手Beta版，在引入360智脑在内的16家国内最强大模型集各家所长后，已在11个单项能力测试指标上超越GPT-4o。

大模型的中场战事：CoE or MoE?

与此同时，即使将底层大模型能力“外包”，360依然能在 CoE 的浪潮中，找到自己的独家定位。

从产品层面看， 360 CoE 产品AI助手可以被分成两个部分：其中，语料积累与算法技术，主要依靠的是360智脑在内的16家国产大模型的接入，类似分工不同的特种兵；而360则充当指挥官的角色，通过意图识别模型，来实现对于用户意图更加精准的理解；通过任务分解和调度模型，实现了对于众多专家模型网络（100+LLM）、千亿规模知识中枢和200+第三方工具的智能调度，进而实现比MoE更高的灵活性和效率。

大模型的中场战事：CoE or MoE?

其背后的逻辑在于，当下阶段，决定用户侧所能感知到的模型智能程度的几大要素排序中，需求理解>语料积累>算法技术。

其中，语料大于算法的逻辑，主要体现在细分场景。一个不太恰当的比喻是，一个初高中搜题软件在解决数学和物理问题上，都能秒杀GPT-4o。

关于如何理解需求理解的重要性，梁志辉用360最新发布的CoE AI工具AI助手举了个例子，比如，关于“比如起床第一件事是做什么”的问题，大部分用户期待的或许是一个养生型的答案，而一个热爱弱智吧问答的用户，期待的答案却是睁眼。

在这种实际场景下，不同于客观的评分与打榜，用户对模型智能程度的感知，是主观的。

而做好用户的主观意图判断，则需要对用户历史行为的积累。如果玩家是像360这样有搜索引擎、浏览器数据积累的玩家，则意味着对用户问题的拆解可以做到更加精准，更进一步，通过历史数据，就能判定用户的检索意图，一步给出最合适的答案。

确认了CoE与360的定位后，一个新的问题又随即出现在眼前，基于以上功能设计，360基于CoE架构的AI助手，究竟是作为自家浏览器、搜索引擎、办公产品中的附加功能，还是作为一个独立应用存在。

最终路线定在两相结合，前者提供更多场景，后者创造更多可能。

8月1日，ISC.AI2024第十二届互联网安全大会·人工智能峰会开幕上，360创始人周鸿祎正式发布“AI助手”。在保留独立的网址入口基础上，AI助手也将其全面内置到360国民级入口产品，用户不需要安装插件，即可获取AI体验，与此同时，用户使用AI助手功能时，还可以对模型一键切换，16家国内主流大模型，“哪家最强用哪家”。

大模型的中场战事：CoE or MoE?

AI助手的使用示范

选择将AI助手内置到成熟应用的最直接原因是用户体验。

基础的技术突破，是抡起锤子对一个钉子猛敲；而落地与商业，则是无数个名叫用户体验、场景连续、技术领先、产品生态的齿轮相嵌合，组成的庞大系统性工程。AI的使用需求，往往伴随场景产生，比如网页的翻译，文章的扩写。如果将这些功能放在不同页面、插件甚至APP之间来回跳转，则意味着使用流程的断点与门槛。

发布会上，周鸿祎对此做出了进一步解释：

“大模型不是产品，而是能力，能力固然很重要，但能力一定要跟场景相结合，才能真正的产生价值。”“大模型像今天电器时代的电动机，这东西可大可小、可强可弱、可快可慢，就看怎么用。比如把电动机拿到工厂传送带，就变成流水线，如果加上四个轮子、底盘、外壳，就能得到一辆汽车。发动机在过程中发挥着重要的作用，但是用户并不需要直接发动机，用户需要发动机提供的能力和很多部件相结合。”

用户体验之外，AI助手绑定浏览器的另一个优势则在于成本。

用户侧成本而言，传统的模式中，用户获得更精准的回答，往往只能选择使用更大参数也更贵的大模型这一条路。而通过AI助手，基于CoE架构的意图识别、任务路由模型，问题可以被精准分发匹配到最合适的模型回答，成本也随之降低。

而在产业生态角度，AI助手被集成到安全卫士、浏览器中，则意味着对大模型几乎零成本的流量导入。一般来说，大模型的成本，主要由训练时的研发与硬件采购支出，以及推理时的网络、算力消耗决定，与传统的互联网模式类似，前期的研发成本，会随着后期用户规模的扩大，而在单用户访问成本上被摊得越薄。

360旗下产品获得了更多AI能力的加持，用户获得了更精准更顺滑的使用体验，大模型厂商获得了免费的流量与继续坐在牌桌上的资格。AI助手从页面交互上看，或许只是一个新增功能的改变，但于大模型而言，却是一场一鱼三吃，产品、技术、用户三赢的新商业模式的开端。

这也解释了，为何不久前以阿里钉钉的号召力，争取到的是“七个葫芦娃”的入驻；而这次360发布“AI助手”，却首发就是16家，几乎是把国内主流大模型厂商“一网打尽”。或许只有一家一家写下来，才能感受到这个阵营以及这种号召力的强大：

大厂：百度、字节跳动、腾讯、阿里巴巴、华为；

五小虎：智谱AI、月之暗面、MiniMax、百川智能、零一万物；

垂类头部：商汤科技、科大讯飞、好未来、幻方量化、面壁智能。

04 尾声

从大模型改变世界，到原子弹变茶叶蛋；从模型为王到合纵连横，从MoE到CoE……短短两年时间，大模型就走完了从初代产品一鸣惊人，到产业淘汰赛，再到商业化的三步走。

而大模型产业的进化速度，也正如其漫无边际膨胀的参数，快速将对手挑落马下，同时快速将自己送到了每一个新兴赛道的终极之问面前：

要生存，还是要伟大。

历史已经替参赛者做出回答——如果生存不能保证，伟大只会成为对手成功路上的垫脚石。

本文来自微信公众号“极客公园”（ID：geekpark），作者：Ray

大模型的中场战事：CoE or MoE?

25亿独角兽CEO带头跑路，携30员工卖身谷歌！AI大佬：AGI泡沫几周就要破

关联网址

关联标签

#AI #AI工具 #AI技术 #面壁智能

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

大模型的中场战事：CoE or MoE?

01

一当暴力不再有奇迹，

大模型正陷入技术的诅咒

02

大模型的T型车时刻：

CoE or MoE？

03

另一种解题思路：

什么决定了用户的智能体验？

04

尾声

25亿独角兽CEO带头跑路，携30员工卖身谷歌！AI大佬：AGI泡沫几周就要破

硅谷大模型独角兽打折卖身谷歌！Transformer作者创办，估值179亿，盈利难以预计

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

大模型的中场战事：CoE or MoE?

01

一当暴力不再有奇迹，

大模型正陷入技术的诅咒

02

大模型的T型车时刻：

CoE or MoE？

03

另一种解题思路：

什么决定了用户的智能体验？

04

尾声

25亿独角兽CEO带头跑路，携30员工卖身谷歌！AI大佬：AGI泡沫几周就要破

硅谷大模型独角兽打折卖身谷歌！Transformer作者创办，估值179亿，盈利难以预计

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿