腾讯这篇论文，暴露了它想操控所有APP的野心

2023-12-25 阅读 62 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

01

具体如何实现这一操作的，APPAgent分为几个步骤。

首先是如何保证能够“调用”所有应用，比如说Siri能够访问“闹钟”应用，就是从系统上植入了访问接口，而市面上的APP几乎无穷无尽，不可能每一个开发者都给Siri搞一个接头暗号。

AppAgent第一个厉害之处就来了，它不需要开发者做任何改动，可以直接模仿人类玩手机的方式，通过图形界面来操作App。

也就是说，它把人类使用APP的过程拆解成了几个具体动作，比如滑动、点击、长按、输入等。

腾讯这篇论文，暴露了它想操控所有APP的野心

也就是说它在AI的加持下，自行学习人类使用APP的过程，从而达到模拟的效果。

这意味着无论市面上出现了什么新的App，只要给AppAgent一点时间自己摸索一下，它就能自己熟练使用了。

在这个过程中，最大的问题是AI如何识别这千千万万种不同的APP、不同的页面按钮分别是做什么的。

AppAgent要玩手机，首先要看得见手机屏幕。传统的方式是把常见的UI界面截图下来，人工打上标记，比如这个是输入框，那个是返回按钮，黄色袋鼠是美团，企鹅是QQ之类的。

然后通过这些数据训练出来一个能识别常见UI元素的视觉模型。

这个问题GPTV其实已经有解决方案了，GPTV其实是GPT-4 Vision的一个缩写，今年11月跟着GPT-4的上线一起来到了大众的视野。

GPT-4 Vision能做到的事简单来说，就是可以看懂用户发给它的图片。

比如像下面这样上传一张过马路的照片，然后问GPT-4照片里有多少人。它的回答是有137人，还很谦虚的说我是大概估算了一下，有些地方太暗还有些人被挡住了，所以我可能数得不准。[2]

腾讯这篇论文，暴露了它想操控所有APP的野心

大家一拥而上搞出了许多花样，包括但不限于：足球比赛解说、实时解读摄像头里出现的物品、根据手绘草图在电脑上帮你画图等等。[3]

大家一致评价：识别速度快、准确性也高，不过缺点也不是没有，太贵。比如做一个13秒的足球视频解说，就要花费约30美元。

但是能用钱解决的问题，都不是问题。

02

第二步，APPAgent会根据人类设定的目标，自我思考并拆解这个目标需要哪些过程。

收到一个请求后，AppAgent首先做的事情是观察环境，也就是上面提到的“看图说话”。

然后再思考怎么根据现状去实现最终目标，得出结论之后就行动。

最后根据行动之后，带来了哪些改变，做一个复盘，然后把这个复盘传递给下一个步骤。

腾讯这篇论文，暴露了它想操控所有APP的野心

比如说它点到了一个广告，就会发现和主要任务无关，并将这一结果的复盘向下传递，并得出结论不要点这个页面。

AppAgent在训练的时候强调了以目标为导向的逻辑，如果进入了与目标不相关的页面就返回上一页。并且还加入了现有大模型中有关用户界面的知识和人类操作的演示。

效果好得惊人，团队在9个APP上总共测试了45个任务，AppAgent在10个步骤内就能成功的概率高达84.4%，而且平均下来只需要5.1个步骤就可以完成。

这样每一步下去都会越来越接近目标。

这是执行任务的过程拆解，而在具体的操作上，如何让AI识别各个功能按键又是个大问题。

为了提升AppAgent在操作上的准确度和效率，团队在两件事儿上下了功夫。

首先，他们先简化了手机界面的坐标，根据前端的XML文件给每个UI元素指定了一个唯一编号。

腾讯这篇论文，暴露了它想操控所有APP的野心

然后，简化了手机的交互操作，规定了以下6种操作：轻点、长按、滑动、输入文字、返回和退出。

当AppAgent思考好了行动计划以后，只要根据操作+位置编号来执行就可以了。

像上图里的“点击（3）”，意思就是执行“点击”这个操作，点的位置是编号为3的区域，也就是邮件发送按钮。

这种操作方式极大地提高了AppAgent操作的准确率。

在过去，直接用GPT-4来操作手机完成任务，成功率仅有2.2%，而还让GPT-4来指挥，但是执行端换成上面这种操作方式之后，成功率就提升到了48.9%。

腾讯这篇论文，暴露了它想操控所有APP的野心

实际上，这篇论文提供的是一种训练AI操作APP的解决方案，其突破性的创意在于改变了智能体实施操作的学习过程。

既互动方式模拟人类、识别UI靠数据标记、执行操作靠位置编号。

就当下来看，这是智能代理技术最为先进的解决方案，让明年AI Agents的普及成为了一种可能。

腾讯这篇论文，暴露了它想操控所有APP的野心

这技术普及还有另一种问题：以后水军刷评论更方便了。

腾讯这篇论文，暴露了它想操控所有APP的野心

参考文章：

[1] AppAgent: Multimodal Agents as Smartphone Users｜Tencent

[2] OpenAI’s GPT-4 Vision explained: Transforming AI with Visual Capabilities | Encord

[3] 解说梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样 | 机器之心

文章来自于微信公众号“`新硅NewGeek”(ID:gh_b2beba60958f)，作者 “刘白”

罗振宇：AI能替代“脑力”，但人类还有“心力”

关联网址

关联标签

#AI #AI加持 #AI技术 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

236 用户在看

腾讯这篇论文，暴露了它想操控所有APP的野心

01

02

罗振宇：AI能替代“脑力”，但人类还有“心力”

全栈式创新——云计算平台如何加速企业部署生成式AI

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

236 用户在看

腾讯这篇论文，暴露了它想操控所有APP的野心

01

02

罗振宇：AI能替代“脑力”，但人类还有“心力”

全栈式创新——云计算平台如何加速企业部署生成式AI

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿