大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

2024-04-01 阅读 45 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

考验AI的动态决策力

AI想在格斗游戏里称王，需要哪些硬实力呢？开发者给出几个标准:

反应要快：格斗游戏讲究实时操作，犹豫就是败北
脑子要灵：高手应该预判对手几十步，未雨绸缪
思路要野：常规套路人人会，出奇制胜才是制胜法宝
适者生存：从失败中吸取教训并调整策略
久经考验：一局定胜负不说明问题，真正的高手能保持稳定的胜率

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

具体玩法如下：

每个大模型控制一个游戏角色，程序向大模型发送屏幕画面的文本描述，大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

第一个挑战是定位人物在场景中的位置，通过检测像素颜色来判断。

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

由于目前大模型数学能力还都不太行，直接发送坐标值效果不好，最终选择了将位置信息改写成自然语言描述。

所以对于AI来说，实际上他们在玩的是一种奇怪的文字冒险游戏。

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

再把大模型生成的动作招式映射成按键组合，就能发送给游戏模拟器执行了。

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

在试验中发现，大模型可以学会复杂的行为，比如仅在对手靠近时才攻击，可能的情况下使用特殊招式，以及通过跳跃来拉开距离。

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

从结果上可以看出，与其他测试方法不同，在这个规则下似乎更大的模型表现越差。

开发者对此解释到：

目标是评估大模型的实时决策能力，规则上允许AI提前生成3-5个动作，更大的模型能提前生成更多的动作，但也需要更长的时间。

在推理上的延迟差距是有意保留的，但后续或许会加入其他选项。

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

后续也有用户提交了流行开源模型的对战结果，在7B及以下量级的战斗中，还是7B模型排名更靠前。

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

从这个角度看，这种新型基准测试为评估大模型的实用性提供了新思路。

现实世界的应用往往比聊天机器人复杂得多，需要模型具备快速理解、动态规划的本领。

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

正如开发者所说，想要赢，要在速度和精度之间做好权衡。

本文来源于公众号凹非寺，作者梦晨

最神秘国产大模型团队冒泡，一出手就是万亿参数MoE，两款应用敞开玩

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

302 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

267 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

240 用户在看

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

考验AI的动态决策力

本文来源于公众号凹非寺，作者梦晨

最神秘国产大模型团队冒泡，一出手就是万亿参数MoE，两款应用敞开玩

0门槛免费商用！孟子3-13B大模型正式开源，万亿token数据训练

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

302 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

267 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

240 用户在看

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

考验AI的动态决策力

本文来源于公众号凹非寺，作者梦晨

最神秘国产大模型团队冒泡，一出手就是万亿参数MoE，两款应用敞开玩

0门槛免费商用！孟子3-13B大模型正式开源，万亿token数据训练

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿