大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

2024-02-12 阅读 46 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

PokéLLMon大战人类

PokéLLMon由佐治亚理工学院研究团队提出：

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

具体来说，他们提出了三个关键策略。

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

一是上下文强化学习（In-Context Reinforcement Learning）。

利用从对战中即时获得的文字反馈作为一种新的“奖励”输入，不需要训练就可以在线迭代完善和调整PokéLLMon的决策生成策略。

其中反馈内容包括：回合HP变化、攻击效果、速度优先级、招式额外效果等。

比如PokéLLMon反复使用相同的攻击招式，但由于对方宝可梦具有“干燥皮肤”的能力，对其没有任何效果。

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

在第三回合中对战中，通过即时上下文强化学习，PokéLLMon随后选择更换宝可梦。

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

二是知识增强生成（Knowledge-Augmented Generation）。

通过检索外部知识源作为额外输入，融入到状态描述中。比如检索类型关系、招式数据，模拟人类查询宝可梦图鉴，来减少未知知识导致的“幻觉”问题。

由此一来，PokéLLMon可以准确理解并应用招式效果。

比如面对犀牛进化形态的地面攻击，PokéLLMon未选择更换宝可梦，而是施展“电磁飘浮”，该技能在五回合内成功抵御地面攻击，使犀牛的“地震”技能无效。

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

三是一致性动作生成（Consistent Action Generation）。

研究人员发现，当PokéLLMon面对强大对手时，思维链（CoT）的推理方式会导致它因“恐慌”而频繁更换道具或宝可梦。

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

而通过一致性动作生成，可以独立多次生成行动，投票出最一致的，从而缓解“恐慌”。

值得一提的是，研究人员所用的模型自主和人类作战的宝可梦对战环境，基于Pokemon Showdown和poke-env实现，目前已开源。

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

为了测试PokéLLMon的对战能力，研究人员用它分别与随机天梯赛玩家和一名拥有15年经验的专业玩家对战。

结果，PokéLLMon与天梯随机玩家的胜率为48.57%，与专业玩家的邀请对战胜率为56%。

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

总的来说，PokéLLMon的优势在于：能准确选择有效招式，统一使用一个宝可梦击倒全部对手；展现出类人的消耗战略，使对手中毒后再拖延回血。

不过研究人员也指出了PokéLLMon的不足之处，面对玩家的消耗战略(拖延回血)很难应对：

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

容易被玩家的迷惑战术误导（迅速切换宝可梦，巧妙使PokéLLMon浪费强化攻击机会）：

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

团队简介

三位作者均为华人学者。

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

论文一作胡思昊，现为佐治亚理工学院计算机科学博士生，本科毕业于浙江大学，曾在新加坡国立大学担任研究助理。

研究兴趣包括用于区块链安全和推荐系统的数据挖掘算法及系统。

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

作者Tiansheng Huang，同为佐治亚理工学院计算机科学博士生，华南理工大学校友。

研究兴趣包括分布式机器学习、并行与分布式计算、优化算法以及机器学习安全性。

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

导师刘玲，现为佐治亚理工学院计算机系教授。1982年毕业于中国人民大学，1993年于荷兰蒂尔堡大学获博士学位。

刘教授主导分布式数据密集系统实验室（DiSL）的研究工作，专注于大数据系统及其分析的多个方面，如性能、安全和隐私等。

同时她也是IEEE Fellow，2012年获得IEEE计算机学会技术成就奖，还曾担任多个IEEE和ACM大会主席。

参考链接：

[1]https://twitter.com/_akhaliq/status/1754337188014100876

[2]https://poke-llm-on.github.io/

大模型开车哪家强？普渡研究给指南：GPT-4真行啊

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

302 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

267 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

240 用户在看

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

PokéLLMon大战人类

团队简介

大模型开车哪家强？普渡研究给指南：GPT-4真行啊

开源AGI智能体人人可养成：AGI对齐新思路，让智能体在人类世界中接受训练

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

302 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

267 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

240 用户在看

大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

PokéLLMon大战人类

团队简介

大模型开车哪家强？普渡研究给指南：GPT-4真行啊

开源AGI智能体人人可养成：AGI对齐新思路，让智能体在人类世界中接受训练

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿