鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > 鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

新火种 2024-01-03

一不留神，大模型已经学会了操纵手机？

最近，腾讯最新多模态智能体框架AppAgent曝光，可以像人类一样操作各种应用。

比如在地图软件中输入目标地址，然后唤起导航。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

或者想要发一封邮件，AppAgent也能轻松编写，然后直接在客户端中发送。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

就算是“反人类”的验证码，也丝毫难不住AppAgent。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

甚至是用Lightroom这样人类都不一定会的专业软件P图，也能三下五除二地完成。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

而且它还可以观察人类操作，甚至是自主探索，不用教就能学会新的APP。

目前，该项目在GitHub上已经取得了1.5k星标。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

操纵水平超越GPT4

为了更具体地评估AppAgent的表现，研究团队一共在10个不同的应用程序上测试了50个任务，其中还包括没有学习过的新APP或操作，结果它都能出色完成。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

除了P图的效果由人工评判，AppAgent在其它九个APP上的表现，分别用成功率（SR）、奖励分数和平均步数来衡量。

在自动探索模式下时，AppAgent完成这些任务的成功率达到了73.3%，学习过DEMO之后可以提升到84.4%。

虽然离人类手工指导的95.6%还存在差距，但这样的表现已经远远超过了GPT-4。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

而在使用Lightroom进行P图操作时，真人会对“参赛选手”的表现进行评价，评价的方式是对它们的作品效果进行排名而不是打分。

结果AppAgent自行学习DEMO后，表现的平均排名为1.95/3，略低于手工指导的1.75，但比GPT4的2.3还是高出不少。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

那么，AppAgent优异表现的背后，采用了什么样的方法呢？

通过界面变化学习操作

研究人员给AppAgent设定了点击、长按、滑动、输入、返回和退出这六种预置操作。

后续的学习过程和操作方案，都是由这六种操作按一定顺序排列组合而成的。

模型方面，AppAgent的基础模型是多模态版的GPT4；工作流程则分为了探索和操作两个阶段。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

探索阶段中，研究人员会把应用说明和标有界面中元素位置的XML文件，连同界面截图一起输入给模型。

然后模型通过分析不同截图之间的界面变化，学习APP的功能和操作逻辑。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

以发送邮件为例，人类的操作过程被转换成六种预置操作的组合，然后被AppAgent学习。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

到了操作阶段，AppAgent会调用学习后的知识库，对应用界面进行分析，了解界面中的功能并根据任务需要设计操作策略。

鹅厂新智能体亮相！操纵手机水平媲美真人，GitHub一周获1.5K星

目前，AppAgent已有DEMO可供体验，暂只支持安卓手机，具体详情和使用方法可以到项目页中查看。

Tags:

真人水平

相关推荐

中央网信办：引导推动大模型提升安全能力水平

2024-08-21

严打虚拟主播？腾讯视频号拟限制数字人带货：鼓励真人直播

2024-06-17

科大讯飞刘庆峰：今年6、7月就能赶上GPT-4目前水平

2024-05-24

OpenAI发布GPT-4o：可免费开放使用语音对话媲美真人

2024-05-15

国际顶尖水平！首个Sora级国产自研视频大模型Vidu发布

2024-04-28

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

豆包灰测深度思考模型，特斯拉FSD功能在华上车|蓝媒GPT

联想AIPC全家桶接入DeepSeek，本地跑70B大模型，离线也能写总结

2025-04-02 11:28

AI图像生成平台「LiblibAI」获数亿元融资

2025-04-02 11:27

AI剧本风控项目启动天使轮融资

2025-04-03 11:21

【VIP机会日报】机器人概念再度走强栏目追踪行业动态提及产业相关公司强势涨停

2025-04-03 13:22

紫光国微：在特种集成电路业务方面强化业务能力、提升发展质量

2025-04-03 11:26

联芸科技：我司已量产的商用产品暂未应用于无人驾驶

2025-04-03 11:27

L3上路倒计时？工信部加快推进智能网联车规划产业基建+商业化迎来关键节点

2025-04-01 11:22

资讯出海，扬帆起航正当时！

2025-04-03 13:23

ChatGPT引爆“吉卜力”风格图像生成浪潮同时激发AI违法争议

2025-03-28 11:21