鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

2023-12-26 阅读 53 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

操纵水平超越GPT4

为了更具体地评估AppAgent的表现，研究团队一共在10个不同的应用程序上测试了50个任务，其中还包括没有学习过的新APP或操作，结果它都能出色完成。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

除了P图的效果由人工评判，AppAgent在其它九个APP上的表现，分别用成功率（SR）、奖励分数和平均步数来衡量。

在自动探索模式下时，AppAgent完成这些任务的成功率达到了73.3%，学习过DEMO之后可以提升到84.4%。

虽然离人类手工指导的95.6%还存在差距，但这样的表现已经远远超过了GPT-4。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

而在使用Lightroom进行P图操作时，真人会对“参赛选手”的表现进行评价，评价的方式是对它们的作品效果进行排名而不是打分。

结果AppAgent自行学习DEMO后，表现的平均排名为1.95/3，略低于手工指导的1.75，但比GPT4的2.3还是高出不少。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

那么，AppAgent优异表现的背后，采用了什么样的方法呢？

通过界面变化学习操作

研究人员给AppAgent设定了点击、长按、滑动、输入、返回和退出这六种预置操作。

后续的学习过程和操作方案，都是由这六种操作按一定顺序排列组合而成的。

模型方面，AppAgent的基础模型是多模态版的GPT4；工作流程则分为了探索和操作两个阶段。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

探索阶段中，研究人员会把应用说明和标有界面中元素位置的XML文件，连同界面截图一起输入给模型。

然后模型通过分析不同截图之间的界面变化，学习APP的功能和操作逻辑。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

以发送邮件为例，人类的操作过程被转换成六种预置操作的组合，然后被AppAgent学习。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

到了操作阶段，AppAgent会调用学习后的知识库，对应用界面进行分析，了解界面中的功能并根据任务需要设计操作策略。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

目前，AppAgent已有DEMO可供体验，暂只支持安卓手机，具体详情和使用方法可以到项目页中查看。

论文地址：

https://www.arxiv.org/abs/2312.13771

文章来自于微信公众号“量子位”（ID: QbitAI)，作者 “克雷西”

Sam Altman的AB面：曾三次被公司“劝退”，硅谷之王如何练成

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

236 用户在看

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

操纵水平超越GPT4

通过界面变化学习操作

文章来自于微信公众号“量子位”（ID: QbitAI)，作者 “克雷西”

Sam Altman的AB面：曾三次被公司“劝退”，硅谷之王如何练成

闭门会里大佬们都好敢说！

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

236 用户在看

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

操纵水平超越GPT4

通过界面变化学习操作

文章来自于微信公众号“量子位”（ID: QbitAI)，作者 “克雷西”

Sam Altman的AB面：曾三次被公司“劝退”，硅谷之王如何练成

闭门会里大佬们都好敢说！

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿