你好,游客 登录
背景:
阅读新闻

重磅!元景屏幕操控智能体助力联通云智手机“自动驾驶”大规模商用

[日期:2025-09-02] 来源:  作者: [字体: ]

    近日,联通云智手机开放了“手机自动驾驶”功能的大规模商用,实现“一句话操控手机App”的功能。该功能背后的核心能力,是中国联通数据科学与人工智能研究院自研的元景屏幕操控智能体和元景多模态GUI模型。凭借元景多模态GUI模型对屏幕内容的精确理解和操控任务的准确规划,元景屏幕操控智能体为手机、PAD、电脑等多类硬件的App自动操控提供了有力支撑。

    元景屏幕操控智能体

    元景屏幕操控智能体能够像人类一样自动理解和操作智能设备的屏幕界面。用户只需要简单地输入一个指令,比如“打开携程预定车票”、“QQ音乐播放音乐”、或者“使用高德打车到指定位置”,屏幕操控智能体就能自动完成一系列复杂的操作,无需用户手动点击、输入或切换应用,大大节省了时间和精力。

    联通云智手机“自动播放”功能演示视频截图(QQ音乐)

    元景屏幕操控智能体秘诀就在下图中。当用户发出指令后,屏幕操控智能体会先对当前屏幕进行“拍照”,然后将这张“照片”和用户的指令一起发送给元景多模态GUI模型。模型会分析当前屏幕上的各种元素(比如按钮、文本框、图标等)、理解用户的需求,并规划出接下来的操作步骤,比如点击某个按钮、输入文字、滑动屏幕等。然后,智能体就会按照这些步骤准确地操作设备。

    元景屏幕操控智能体架构

    如果屏幕操控智能体在自动操作过程中遇到需要输入敏感信息的环节,比如登录账号、输入密码或者支付环节,其还会暂停操作并提醒用户手动确认,以确保用户的隐私和安全。在用户完成输入后,智能体会继续自动操作,直至用户的操作指令执行完毕。

    以下视频展示了元景屏幕操控智能体在手机上完成“打开携程,帮我预定9月10日从成都到北京的飞机票,选择07:55出发的那趟航班。”这一任务的工作流程:智能体会基于当前屏幕截图和用户指令,逐步模拟人类操作手机,直到到达支付界面,提醒用户支付。

    联通云智手机“携程订飞机票”步骤演示视频截图

    元景屏幕操控智能体使得各类智能设备的操控操作变得更加简单,尤其对老人、儿童等对智能设备操作不太熟悉的群体,提供了更加便利的操作方式。比如,老人想给远在他乡的孩子发一条信息,只需要说“给儿子发个消息,说我想他了”,智能体就能自动打开消息应用,输入文字并发送;孩子想听一首歌,只需要说“播放周杰伦的《稻香》”,智能体就能自动找到歌曲并播放。对于上班族来说,它也能大大提升工作效率。比如需要快速完成各类申请、信息查询、订票、点外卖等操作时,都可以通过一句话的指令自动完成。

    元景多模态GUI模型

    作为元景屏幕操控智能体的核心,元景多模态GUI模型基于自研的创新复合视觉编码模块和元景语言模型构建,具备对多种屏幕内容的精确理解和多步复杂操作任务的高效准确规划能力,其中,复合视觉模块融合了CNN(ConvNext)和ViT(Siglip、InternViT)两类视觉编码器,能够在捕获图像细节以及空间特征的同时,全面理解图像全局信息,从而实现了屏幕内容的鲁棒视觉表征。

    同时,为了支持动态分辨率输入,复合视觉编码模块除了块内的位置编码外,还对每个patch之间添加2D图像位置编码,从而加强了GUI模型对位置信息的感知。

    元景多模态GUI模型架构

    元景多模态GUI模型使用了大量屏幕控制相关的识别定位和多步任务规划图文数据,覆盖了不同操作系统的应用、网页、系统设置等界面,使得模型在准确理解用户输入文本指令的同时,能够准确识别和定位屏幕上的各种图形和界面元素,并规划出复杂的多步操作任务,就像拥有一双“火眼金睛”和一个“大脑”。

    在模型训练方面,采用了GPRO进行自适应的强化学习训练,进一步提升了交互决策的准确率和泛化能力。在业界权威的GUI模型评测基准ScreenSpot-V2上,元景多模态GUI模型得分90.5%,排名前三,接近人类专家水平。

    元景多模态GUI模型在ScreenSpot-V2基准上排名前三

    为尽量缩短屏幕操控任务的整体时长,元景多模态GUI模型在多步推理速度方面也进行了大量的优化。

    首先,在不同任务的操控逻辑上,通过优化操作路径进行了整体执行效率的提升。相比传统模型“逐步试探式”的指令链条,我们能够基于上下文理解,智能选择更少、更准、更优的操作步骤,规避冗余和重复指令,确保以短路径完成任务。这就像为任务规划一条既快捷又高质量的“智能驾驶路线”,显著提升整体操作流畅度和用户体验。

    同时,团队通过采取模型优化、推理加速等方式,进一步提升了模型的推理效率,使模型的整体响应速度较业界主流模型提升超过50%。

    当前,中国联通数据科学与人工智能研究院自研的元景屏幕操控智能体和元景多模态GUI模型已支持主流App的操控,涵盖社交、娱乐、出行、购物、信息服务等常见使用场景。针对企业专属App,其也体现了强大的通用性和适配能力,当前已支持多个企业内部App的自动操控,并覆盖了手机、电脑、车载设备等多类终端的不同操作系统。

    未来,它还将支持企业ERP系统、工业控制系统等复杂业务环境的自动操控,进一步提升跨平台、定制化应用的智能化水平,让各类智能设备的操作更加高效、便捷与安全。作为多模共生的元景模型家族的重要组成部分,元景多模态模型将为更多行业场景提供标准化、模块化的智能交互解决方案,推动多模态AI真正走进千行百业,助力行业数字化转型提质增效。

推荐 打印 | 录入:admin | 阅读:
本文评论   
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款