首页 > AI资讯 > 最新资讯 > 手机学会点屏幕了,为什么笨AI也有未来?

手机学会点屏幕了,为什么笨AI也有未来?

新火种    2025-04-26

嘴巴一动

完成操作

去年 11 月。荣耀为了新机 Magic 7 Pro 的发布,策划了一次堪称行为艺术的事件营销。

时任荣耀 CEO 的赵明现场指挥 AI Agent YOYO 打开美团,下单了约 2000 杯瑞幸饮料。这一通操作过后,深圳发布会场地周边的瑞幸门店纷纷「爆单」,门店咖啡师忙到崩溃,接到订单的骑手更是在门店排起长队。

这次效果显著却略带荒诞意味的事件营销,一定程度上让公众忽略了荣耀试图展示的核心技术:「基于 GUI 的个人 AI 智能体」。

时至今日,AI Agent 功能确实已经不新鲜了。而这个技术的关键点,在「GUI」这三个字上。

GUI 全称 Graphical User Interface,图形用户界面。作为一个基于 GUI 的 AI Agent,YOYO 不再依赖传统的 API 接口,而是有了一只虚拟的「手」,直接在代替用户进行图形界面操作。整个代行操作不在「后台」,而是直接在「前台」,在用户的眼皮底下实时发生。

需要澄清的是:Magic 7 Pro 市售机型用户的体验可能会与发布会演示存在差异。据财联社报道,当时现场演示用的测试机权限更高,能够自动免密支付和循环点单,这才不停地点出了 2000 杯饮料。至少在目前,市售机型需要用户明确告知点单细节(例如品牌、品名、杯型、温度等),并且在支付环节需要用户接管确认。

这个细节确实重要,但也不至于抹杀这项技术的存在意义。正相反,我们认为,「基于 GUI」是个很另类,很有趣,颇具试验性的 AI Agent 实现路径。

AI Agent 交互的「前台」新路

荣耀 YOYO 的核心是多模态模型,GUI 交互的本质是语言+视觉的理解。

自然语言处理 (NLP):理解「点一杯冰美式」的指令;

屏幕状态感知:识别当前界面中的内容,找到正确的按钮、输入框等界面元素;

拟人化操作:像人类一样点击按钮、输入信息;

循环操作:在新的界面中持续解析内容、定位和点击界面元素。

关于 GUI 的操作部分,这最后一步具体是怎样实现的,荣耀方面没有明确透露。一种稳妥的猜测是:它能够获得手机的无障碍功能 (accessibility features) 或类似的底层权限,从而控制屏幕点击事件。

Tags:
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。