AgentCPM-GUI:MobileUse智能体基于图像推理,操控手机

admin 2025年5月14日11:06:00评论7 views字数 2293阅读7分38秒阅读模式

项目概述

AgentCPM-GUI[1]是一款由清华大学THUNLP实验室与面壁智能联合开发的开源端侧智能体大模型,基于MiniCPM-V构建,总参数量为8B。该模型能够接收手机屏幕图像作为输入,并根据用户指令自动完成相应任务。这是一个专为中文环境优化的GUI智能体,能够操控安卓应用程序完成各种复杂交互任务。

AgentCPM-GUI:MobileUse智能体基于图像推理,操控手机

核心特性

  1. 高质量GUI基础能力:通过在大规模中英文Android数据集上预训练,模型对常见GUI控件(如按钮、输入框、标签、图标等)具备出色的定位与理解能力,为精确操作奠定基础。

  2. 中文APP应用适配:作为首个针对中文APP精细优化的开源GUI Agent,模型支持高德地图、大众点评、哔哩哔哩、小红书等30余个主流中文应用,解决了中文界面交互的特殊挑战。

  3. 增强的规划推理能力:通过强化微调技术(RFT),使模型在输出动作前进行详细的推理思考,显著提升复杂任务执行的成功率,使操作更加智能化。

  4. 紧凑的动作空间设计:采用优化的动作空间和紧凑的JSON格式,平均动作长度仅9.7个token,大幅提升端侧推理效率,降低了资源消耗。

技术架构

AgentCPM-GUI:MobileUse智能体基于图像推理,操控手机

AgentCPM-GUI建立在MiniCPM-V模型基础上,通过监督微调(SFT)和强化学习微调(RFT)两个阶段训练而成:

  1. 监督微调(SFT):使用包含屏幕截图和相应操作的大规模标注数据集,训练模型理解界面元素并生成正确的操作行为。

  2. 强化微调(RFT):通过自我探索和反馈机制,优化模型的思考能力和决策策略,提高复杂场景下的任务完成率。

  3. 动作设计:采用JSON结构化输出,支持多种操作类型:

    • POINT:点击屏幕指定位置
    • to:从当前位置滑动(上、下、左、右或特定坐标)
    • TYPE:输入文本
    • PRESS:特殊按键操作(HOME、BACK、ENTER)
    • 支持思考(thought)过程输出,增强可解释性
AgentCPM-GUI:MobileUse智能体基于图像推理,操控手机

性能评估

AgentCPM-GUI在多个基准测试中表现卓越:

  1. GUI元素识别(Grounding)

    • fun2point:79.1%(领先)
    • text2point:76.5%(领先)
    • bbox2text:58.2%(领先)
    • 平均:71.3%(远超第二名44.3%)
  2. 任务执行(Agent)

    • 在Android Control、GUI-Odyssey、AITZ等英文测试集上取得领先成绩
    • 在中文APP测试集上表现尤为突出(TM 96.86%,EM 91.28%)
    • 显著超越Qwen2.5-VL、UI-TARS等主流模型以及GPT-4o、Gemini 2.0等闭源大模型

MobileUse手机控制

功能描述

使用触摸屏与移动设备互动,并截取屏幕截图。

  • 这是一个与带有触摸屏的移动设备交互的界面。您可以执行点击、输入、滑动等操作。
  • 某些应用程序可能需要时间启动或处理操作,因此您可能需要等待并连续截取屏幕截图才能看到操作结果。
  • 屏幕分辨率为 {self.display_width_px}x{self.display_height_px}。
  • 请确保使用光标尖端点击按钮、链接、图标等元素的中心。除非另有要求,否则不要点击框的边缘。

工具列表描述

要执行的动作。可用的动作如下:

要执行的动作。可用的动作如下:

  • key:在移动设备上执行按键事件。
  • 这支持 adb 的 keyevent 语法。
  • 示例:"volume_up"(音量增大)、"volume_down"(音量减小)、"power"(电源键)、"camera"(相机键)、"clear"(清除键)。
  • click:点击屏幕上坐标为 (x, y) 的点。
  • long_press:按住屏幕上坐标为 (x, y) 的点指定秒数。
  • swipe:从起始点坐标 (x, y) 滑动到终点坐标 (x2, y2)。
  • type:在激活的输入框中输入指定的文本。
  • system_button:按下系统按键。
  • open:在设备上打开应用。
  • wait:等待指定的秒数以使更改发生。
  • terminate:终止当前任务并报告其完成状态。

基于大模型的Function Call机制实现,Android控制部分基于Android Debug Bridge协议实现,支持以上几个操作类型,详情见AgentCPM-GUI/eval/utils/utils_qwen/agent_function_call.py 

项目中,还有一些ComputerUse  的代码,我没太理解为啥要操控电脑。

应用场景

  1. 智能手机自动化:替代传统脚本,通过自然语言指令完成日常操作任务
  2. 无障碍辅助:帮助行动不便用户操控手机应用
  3. 应用测试与QA:自动执行应用测试流程,发现潜在问题
  4. 智能助手集成:为现有智能助手提供视觉交互能力
  5. 教育引导:辅助新用户学习复杂应用的使用方法
AgentCPM-GUI:MobileUse智能体基于图像推理,操控手机

部署与使用

模型支持多种部署方式:

  1. Hugging Face推理:直接加载模型进行推理,支持本地GPU加速
  2. vLLM服务部署:通过vLLM部署高性能推理服务,适合多用户场景
  3. 自定义训练:开源了SFT和RFT训练代码,可根据特定需求进行调整和优化

未来展望

作为端侧GUI智能体的前沿实践,AgentCPM-GUI开启了多模态AI与手机交互的新范式,未来有望在以下方向持续发展:

  1. 扩展到更多应用场景和平台(如iOS、桌面系统)
  2. 增强跨应用任务规划和执行能力
  3. 降低模型参数量,提升端侧部署效率
  4. 增强个性化适应能力,根据用户习惯调整交互方式

看到这里,想必一些搞黑产、灰产的同学肯定早有动作了,那么作为防御方的你,又开始头疼了吗?

参考资料
[1] 

AgentCPM-GUI: https://github.com/OpenBMB/AgentCPM-GUI

原文始发于微信公众号(榫卯江湖):AgentCPM-GUI:MobileUse智能体基于图像推理,操控手机

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年5月14日11:06:00
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   AgentCPM-GUI:MobileUse智能体基于图像推理,操控手机http://cn-sec.com/archives/4061429.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息