AI时代的第一个超级APP,很可能又是腾讯搞的

虽然现在各种AI加持下的Chatbot、生图、扩图应用层出不穷,但总感觉好像并没有给日常生活带来什么变化。

回想当年互联网技术从网页到移动端的进化,支付宝取代了现金、滴滴重塑了出行、美团改写了用餐方式…那么AI技术会带来什么样的变革?

腾讯研究团队的一篇最新论文带来了一种可能:一个帮你操作所有APP的应用。

只要告诉这个应用你想做什么,它就会自动打开相关的手机App,直接把事儿给你办了。

腾讯这篇论文,暴露了它想操控所有APP的野心

比如帮你订个工作日起床闹钟、给领导发个微信消息、上美团点杯奶茶、去拼多多买一箱最便宜的纸巾、让滴滴叫一辆去机场的车、或者把刚拍的照片P好看一下然后直接发到朋友圈,顺手配一段伤感的文字。

腾讯这篇论文,暴露了它想操控所有APP的野心

有了这个APPAgent就再也不用去一页页找各种APP了,未来需要咱们手动点开的可能就这一个APP。

这是什么?这不就是个比微信更强大的超级流量入口嘛!

01

具体如何实现这一操作的,APPAgent分为几个步骤。

首先是如何保证能够“调用”所有应用,比如说Siri能够访问“闹钟”应用,就是从系统上植入了访问接口,而市面上的APP几乎无穷无尽,不可能每一个开发者都给Siri搞一个接头暗号。

AppAgent第一个厉害之处就来了,它不需要开发者做任何改动,可以直接模仿人类玩手机的方式,通过图形界面来操作App。

也就是说,它把人类使用APP的过程拆解成了几个具体动作,比如滑动、点击、长按、输入等。

腾讯这篇论文,暴露了它想操控所有APP的野心

也就是说它在AI的加持下,自行学习人类使用APP的过程,从而达到模拟的效果。

这意味着无论市面上出现了什么新的App,只要给AppAgent一点时间自己摸索一下,它就能自己熟练使用了。

在这个过程中,最大的问题是AI如何识别这千千万万种不同的APP、不同的页面按钮分别是做什么的。

AppAgent要玩手机,首先要看得见手机屏幕。传统的方式是把常见的UI界面截图下来,人工打上标记,比如这个是输入框,那个是返回按钮,黄色袋鼠是美团,企鹅是QQ之类的。

然后通过这些数据训练出来一个能识别常见UI元素的视觉模型。

这个问题GPTV其实已经有解决方案了,GPTV其实是GPT-4 Vision的一个缩写,今年11月跟着GPT-4的上线一起来到了大众的视野。

GPT-4 Vision能做到的事简单来说,就是可以看懂用户发给它的图片。

比如像下面这样上传一张过马路的照片,然后问GPT-4照片里有多少人。它的回答是有137人,还很谦虚的说我是大概估算了一下,有些地方太暗还有些人被挡住了,所以我可能数得不准。[2]

腾讯这篇论文,暴露了它想操控所有APP的野心

大家一拥而上搞出了许多花样,包括但不限于:足球比赛解说、实时解读摄像头里出现的物品、根据手绘草图在电脑上帮你画图等等。[3]

大家一致评价:识别速度快、准确性也高,不过缺点也不是没有,太贵。比如做一个13秒的足球视频解说,就要花费约30美元。

但是能用钱解决的问题,都不是问题。

02

第二步,APPAgent会根据人类设定的目标,自我思考并拆解这个目标需要哪些过程。

收到一个请求后,AppAgent首先做的事情是观察环境,也就是上面提到的“看图说话”。

然后再思考怎么根据现状去实现最终目标,得出结论之后就行动。

最后根据行动之后,带来了哪些改变,做一个复盘,然后把这个复盘传递给下一个步骤。

腾讯这篇论文,暴露了它想操控所有APP的野心

比如说它点到了一个广告,就会发现和主要任务无关,并将这一结果的复盘向下传递,并得出结论不要点这个页面。

AppAgent在训练的时候强调了以目标为导向的逻辑,如果进入了与目标不相关的页面就返回上一页。并且还加入了现有大模型中有关用户界面的知识和人类操作的演示。

效果好得惊人,团队在9个APP上总共测试了45个任务,AppAgent在10个步骤内就能成功的概率高达84.4%,而且平均下来只需要5.1个步骤就可以完成。

这样每一步下去都会越来越接近目标。

这是执行任务的过程拆解,而在具体的操作上,如何让AI识别各个功能按键又是个大问题。

为了提升AppAgent在操作上的准确度和效率,团队在两件事儿上下了功夫。

首先,他们先简化了手机界面的坐标,根据前端的XML文件给每个UI元素指定了一个唯一编号。

腾讯这篇论文,暴露了它想操控所有APP的野心

然后,简化了手机的交互操作,规定了以下6种操作:轻点、长按、滑动、输入文字、返回和退出。

当AppAgent思考好了行动计划以后,只要根据操作+位置编号来执行就可以了。

像上图里的“点击(3)”,意思就是执行“点击”这个操作,点的位置是编号为3的区域,也就是邮件发送按钮。

这种操作方式极大地提高了AppAgent操作的准确率。

在过去,直接用GPT-4来操作手机完成任务,成功率仅有2.2%,而还让GPT-4来指挥,但是执行端换成上面这种操作方式之后,成功率就提升到了48.9%。

腾讯这篇论文,暴露了它想操控所有APP的野心

实际上,这篇论文提供的是一种训练AI操作APP的解决方案,其突破性的创意在于改变了智能体实施操作的学习过程。

既互动方式模拟人类、识别UI靠数据标记、执行操作靠位置编号。

就当下来看,这是智能代理技术最为先进的解决方案,让明年AI Agents的普及成为了一种可能。

腾讯这篇论文,暴露了它想操控所有APP的野心

这技术普及还有另一种问题:以后水军刷评论更方便了。

腾讯这篇论文,暴露了它想操控所有APP的野心

参考文章:

[1] AppAgent: Multimodal Agents as Smartphone Users|Tencent 

[2] OpenAI’s GPT-4 Vision explained: Transforming AI with Visual Capabilities | Encord 

[3] 解说梅西球赛、英雄联盟,OpenAI GPT-4视觉API被开发者玩出新花样 | 机器之心 

文章来自于 微信公众号“`新硅NewGeek”(ID:gh_b2beba60958f),作者 “刘白”

关联网址

关联标签

文章目录

发评论,每天都得现金奖励!超多礼品等你来拿

后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则
暂无评论...