dquo;大脑”。
    在模型训练方面,采用了GPRO进行自适应的强化学习训练,进一步提升了交互决策的准确率和泛化能力。在业界权威的GUI模型评测基准ScreenSpot-V2上,元景多模态GUI模型得分90.5%,排名前三,接近人类专家水平。
    元景多模态GUI模型在ScreenSpot-V2基准上排名前三
    为尽量缩短屏幕操控任务的整体时长,元景多模态GUI模型在多步推理速度方面也进行了大量的优化。
    首先,在不同任务的操控逻辑上,通过优化操作路径进行了整体执行效率的提升。相比传统模型“逐步试探式”的指令链条,我们能够基于上下文理解,智能选择更少、更准、更优的操作步骤,规避冗余和重复指令,确保以短路径完成任务。这就像为任务规划一条既快捷又高质量的“智能驾驶路线”,显著提升整体操作流畅度和用户体验。
    同时,团队通过采取模型优化、推理加速等方式,进一步提升了模型的推理效率,使模型的整体响应速度较业界主流模型提升超过50%。
    当前,中国联通数据科学与人工智能研究院自研的元景屏幕操控智能体和元景多模态GUI模型已支持主流App的操控,涵盖社交、娱乐、出行、购物、信息服务等常见使用场景。针对企业专属App,其也体现了强大的通用性和适配能力,当前已支持多个企业内部App的自动操控,并覆盖了手机、电脑、车载设备等多类终端的不同操作系统。
    未来,它还将支持企业ERP系统、工业控制系统等复杂业务环境的自动操控,进一步提升跨平台、定制化应用的智能化水平,让各类智能设备的操作更加高效、便捷与安全。作为多模共生的元景模型家族的重要组成部分,元景多模态模型将为更多行业场景提供标准化、模块化的智能交互解决方案,推动多模态AI真正走进千行百业,助力行业数字化转型提质增效。

上一页
返回列表
返回首页
©2026 云计算世界-云计算资料和交流中心 电脑版
Powered by iwms