重磅!元景屏幕操控智能体助力联通云智手机“自动驾驶”大规模商用
2025/9/2 17:40:51

    近日,联通云智手机开放了“手机自动驾驶”功能的大规模商用,实现“一句话操控手机App”的功能。该功能背后的核心能力,是中国联通数据科学与人工智能研究院自研的元景屏幕操控智能体和元景多模态GUI模型。凭借元景多模态GUI模型对屏幕内容的精确理解和操控任务的准确规划,元景屏幕操控智能体为手机、PAD、电脑等多类硬件的App自动操控提供了有力支撑。
    元景屏幕操控智能体
    元景屏幕操控智能体能够像人类一样自动理解和操作智能设备的屏幕界面。用户只需要简单地输入一个指令,比如“打开携程预定车票”、“QQ音乐播放音乐”、或者“使用高德打车到指定位置”,屏幕操控智能体就能自动完成一系列复杂的操作,无需用户手动点击、输入或切换应用,大大节省了时间和精力。
    联通云智手机“自动播放”功能演示视频截图(QQ音乐)
    元景屏幕操控智能体秘诀就在下图中。当用户发出指令后,屏幕操控智能体会先对当前屏幕进行“拍照”,然后将这张“照片”和用户的指令一起发送给元景多模态GUI模型。模型会分析当前屏幕上的各种元素(比如按钮、文本框、图标等)、理解用户的需求,并规划出接下来的操作步骤,比如点击某个按钮、输入文字、滑动屏幕等。然后,智能体就会按照这些步骤准确地操作设备。
    元景屏幕操控智能体架构
    如果屏幕操控智能体在自动操作过程中遇到需要输入敏感信息的环节,比如登录账号、输入密码或者支付环节,其还会暂停操作并提醒用户手动确认,以确保用户的隐私和安全。在用户完成输入后,智能体会继续自动操作,直至用户的操作指令执行完毕。
    以下视频展示了元景屏幕操控智能体在手机上完成“打开携程,帮我预定9月10日从成都到北京的飞机票,选择07:55出发的那趟航班。”这一任务的工作流程:智能体会基于当前屏幕截图和用户指令,逐步模拟人类操作手机,直到到达支付界面,提醒用户支付。
    联通云智手机“携程订飞机票”步骤演示视频截图
    元景屏幕操控智能体使得各类智能设备的操控操作变得更加简单,尤其对老人、儿童等对智能设备操作不太熟悉的群体,提供了更加便利的操作方式。比如,老人想给远在他乡的孩子发一条信息,只需要说“给儿子发个消息,说我想他了”,智能体就能自动打开消息应用,输入文字并发送;孩子想听一首歌,只需要说“播放周杰伦的《稻香》”,智能体就能自动找到歌曲并播放。对于上班族来说,它也能大大提升工作效率。比如需要快速完成各类申请、信息查询、订票、点外卖等操作时,都可以通过一句话的指令自动完成。
    元景多模态GUI模型
    作为元景屏幕操控智能体的核心,元景多模态GUI模型基于自研的创新复合视觉编码模块和元景语言模型构建,具备对多种屏幕内容的精确理解和多步复杂操作任务的高效准确规划能力,其中,复合视觉模块融合了CNN(ConvNext)和ViT(Siglip、InternViT)两类视觉编码器,能够在捕获图像细节以及空间特征的同时,全面理解图像全局信息,从而实现了屏幕内容的鲁棒视觉表征。
    同时,为了支持动态分辨率输入,复合视觉编码模块除了块内的位置编码外,还对每个patch之间添加2D图像位置编码,从而加强了GUI模型对位置信息的感知。
    元景多模态GUI模型架构
    元景多模态GUI模型使用了大量屏幕控制相关的识别定位和多步任务规划图文数据,覆盖了不同操作系统的应用、网页、系统设置等界面,使得模型在准确理解用户输入文本指令的同时,能够准确识别和定位屏幕上的各种图形和界面元素,并规划出复杂的多步操作任务,就像拥有一双“火眼金睛”和一个&l

下一页
返回列表
返回首页
©2025 云计算世界-云计算资料和交流中心 电脑版
Powered by iwms