o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

2024-09-29 阅读 34 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

用“搭积木”测试大模型

为了评估o1系列模型的规划能力，作者使用了PlanBench评估基准。

该基准的提出者中也正好包含了本文三名作者中的两名——共同一作Karthik Valmeekam，以及他的导师Subbarao Kambhampati。

PlanBench专门为评估大模型规划能力而设计，任务类型涵盖了计划生成、成本最优规划、计划验证等。

具体到这个实验，作者使用了其中来自于国际规划竞赛（IPC）的Blocksworld和其变体。

此类问题涉及在桌子上堆叠积木块，目标是从一个初始状态，重新排列到目标配置。

木块用不同的颜色标识，一次只能移动一个积木块，且只能移动每一堆中顶部的积木块，被拿起的积木块也只能放在顶部或直接放在桌子上。

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

变体Mystery Blocksworld则是在Blockworlds的基础上加入混淆机制，用一些毫不相干的词语来代替操作中的动作。

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

在此基础之上，还有更为复杂的全随机变体，指令进一步从其他英文单词变成了无意义的字符串。

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

在o1之前，Blockworlds上的SOTA模型是Llama3.1-405B，成绩为达到 62.6%，而在Mystery Blockworlds上，没有任何模型的成绩能超过5%。

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

o1-preview超强规划

o1这边的测试结果显示，preview相比mini，成绩优势十分明显。

在Blockworlds任务上，preview版准确率达98%，而mini只有56.6%，表现还不如llama。

当然加入了混淆之后，mini相比于llama也显示出了一些优势——

在零样本配置下，preview版的准确率超过了一半，比llama的4.3%高出了11倍多；mini版也达到了19.1%，比llama高3.4倍。

最后在全随机版本下，o1-preview还能拥有37.3%的准确率。

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

以上结果显示出了o1系列模型，特别是o1-preview的超强规划能力，但是不足之处也十分明显。

一是随着规划长度的增加，模型的性能也会迅速下降，即使对于未混淆的Blockworlds来说也同样如此。

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

另外，Blockworlds系列问题并非全部可解，作者发现o1在识别不可解问题上的准确率依然存在不足。

对于未混淆版本准确率只有27%，但没有误判为不可解的情况；对于全随机版本则只有16%，另外还有11.5%的概率将可解问题误判为不可解。

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

甚至作者还发现，o1有时也会狡辩，提出令人信服的合理理由，让人们相信其错误答案。

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

在模型本身的性能之外，成本和时间消耗也是一个重要考量，相比于传统大模型，o1-mini的成本相比GPT4-Turbo直接翻番，preview更是高出了数量级。

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

那么，如果你是开发者，会愿意为了o1的高性能付出更多的成本吗？欢迎评论区交流。

论文地址：

https://arxiv.org/abs/2409.13373

参考链接：

https://x.com/rao2z/status/1838245261950509170

文章来自于微信公众号“量子位”，作者“克小西”

支付宝进军大模型医疗应用，技术一号位：我们有4个切入点

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

用“搭积木”测试大模型

o1-preview超强规划

支付宝进军大模型医疗应用，技术一号位：我们有4个切入点

利用公开知识定向提升大模型，腾讯优图&上交大提出新方法，性能达SOTA

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

用“搭积木”测试大模型

o1-preview超强规划

支付宝进军大模型医疗应用，技术一号位：我们有4个切入点

利用公开知识定向提升大模型，腾讯优图&上交大提出新方法，性能达SOTA

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿