AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

2024-08-12 阅读 47 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

01 关键要点

以下是，Alex将AI智能体，组织成类似苹果、微软、谷歌等公司结构后，得到的一些关键要点：

– 有多个「竞争」团队（即竞争生产最佳最终产品）的公司，如微软、苹果，表现优于集中化的层级结构。

– 具有单点故障（比如一个领导者做出重要决策）的系统，如谷歌、亚马逊和Oracle，表现不佳。

– 大型科技公司的组织结构，对问题解决能力有适度但明显的影响。

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

02 AI智能体与科技巨头组织

之前通过简单增加AI智能体数量，来提升性能的方法，比如SWE-bench，并未取得显著的成效。

这表明，仅仅依赖数量的增加，并不能解决问题。

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

那么，有什么其他的方法可以让AI智能体在软件工程方面变得更好？

三周前，Alex偶然看到了James Huckle关于「康威定律」的一篇文章——软件和产品架构注定会反映创造它的组织结构。

James展示了一幅插图，揭示了亚马逊、谷歌、Facebook、微软、苹果和Oracle的戏剧化组织结构，并提出了一个想法：

就像大型科技公司中的人类一样，多智能体通信结构可能会塑造问题解决方法。

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

Alex受到启发，决定在SWE-bench实例上测试James的假设。

03 实验设置

作者将AI智能体组织成不同的公司结构，在SWE-bench-lite的13个实例「mini」子集上，评估了六种不同的组织结构。

在构建这六种组织时，他基于一些核心观察设计了多智能体组织结构：

亚马逊

顶层有一个「管理者」的二叉树。

为了复制这一结构，Alex使用了大量执行代码库搜索的智能体，和一个最终执行代码库更新的单一智能体。

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

Meta（Facebook）

缺乏层级结构，但仍是一个智能体之间有许多连接的网状组织。

Alex通过增加不同智能体之间的转换可能性，来修改原始的智能体设计。

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

微软

强调竞争团队，每个团队有自己的层级。

本质上，Alex重新调整了亚马逊的结构（减少智能体数量），并使用向量相似性投票方法，从三次单独运行中选择「最佳」解决方案（每次运行对层级结构略有调整）。

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

苹果

许多小型竞争团队，每个团队都有自己的最小结构。

Alex使用了与微软相同的「最佳解决方案」方法，但进行了更多没有智能体层级的运行（每次运行有不同的转换）。

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

Oracle

有两个不同的团队，一个较大的「法律」二叉树和一个较小的工程树。

Alex将法律团队解释为，搜索代码库和检索关键上下文的智能体，而工程团队由实际编写代码的智能体组成。

两个团队的结构类似于亚马逊，顶层有一个单一智能体协调「法律」和「工程」之间的信息传递。

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

04 评估结果

为了评估SWE-bench上的每组patch，作者使用了SWE-bench evaluation。

结果如下：

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

组织结构图绩效分析

以下是作者对不同公司结构，如何影响性能的一些观察：

– 有竞争力的团队增加成功机会。

表现最佳的两个（微软和苹果）都有多个团队在竞争解决问题，而其他公司似乎只有一个巨大的团队生成单一patch。

多个团队允许增加问题解决方法的多样性，提高解决问题的概率。

– 有单点故障的结构表现不佳。

提到单点故障，是指是那些有高层管理者/智能体可以完全改变运行结果的公司（如谷歌、亚马逊和甲骨文）。

在协调多个智能体之间的互动时，一个常见问题是某个智能体失败——导致可能出现一个智能体改变团队问题解决策略方向的情况。

具有单点故障的公司容易受到这些问题的影响。

另外，表现最好的两家公司，微软和苹果，恰好是世界上市值最大的两家科技公司。

事实证明，在现实世界中似乎最有效的组织结构对AI智能体也同样有效。

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

05 对SWE-bench进展的思考

看着不同公司结构的结果，在这个Mini基准上是可以预料到的。

总的来说，似乎在一个像软件工程这样复杂的任务中，增加更多的智能体，或改变这些智能体的组织方式，只会带来边际性能的提高。

虽然论文More Agents Is All You Need 发现，准确率有相当大的提高（约20%），但在GSM8K（小学数学）测试中，30个智能体后性能明显趋于平缓。

研究还发现，过于复杂的任务（如SWE-bench中的任务）可能超出模型的推理能力，导致性能增益递减。

坐着在SIMA中同样验证了这一发现，最多只比基础架构提高了2-3%（使用40多个智能体）。

他预计，这种小幅提升在其他非多智能体架构中也会一致。

作者认为，若想在基准测试上取得更大进步，需要改变智能体的实际逻辑推理能力，或者它们可以采用（或被给予）的解决软件问题的策略和方法。

这可以通过更强大的基础模型（GPT-5）或给予智能体更广泛的工具来实现。

这与公司运作是一样的。

归根结底，如果你不雇用更聪明的员工，或给他们更好的资源，无论你如何组织他们或有多少人，他们的产出都不会提高。

不得不承认，13个实例的性能可能与完整基准测试的实际性能相差甚远。

仅在这个mini子集中的差异就足够显著，值得关注（从谷歌到苹果提高了约50%）。

基础模型/工具可能是智能体软件工程的限制因素，但随着基础模型的改进，探索智能体通信结构（无论是否在公司组织中）绝对应该被测试。

正如James Huckle所说，这个概念可能成为AI智能体设计中的「关键超参数」，不同的组织结构可能更适合不同的任务。

参考资料：

https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures

本文来自微信公众号“新智元”，作者：新智元

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

情侣合照逼真到恐怖，竟被代码识出破绽？沃顿教授预言AI 18个月封神

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

01 关键要点

02 AI智能体与科技巨头组织

03 实验设置

亚马逊

微软

苹果

Oracle

04 评估结果

组织结构图绩效分析

05 对SWE-bench进展的思考

情侣合照逼真到恐怖，竟被代码识出破绽？沃顿教授预言AI 18个月封神

OpenAI，可能已经不是街上最靓的仔

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

AI大军接管六大科技巨头，老板打工人皆是AI，效仿微软组织结构，工作效率惊人

01 关键要点

02 AI智能体与科技巨头组织

03 实验设置

亚马逊

微软

苹果

Oracle

04 评估结果

组织结构图绩效分析

05 对SWE-bench进展的思考

情侣合照逼真到恐怖，竟被代码识出破绽？沃顿教授预言AI 18个月封神

OpenAI，可能已经不是街上最靓的仔

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿