AgentCPM-GUI：MobileUse智能体基于图像推理，操控手机

2025年5月14日11:06:00评论7 views字数 2293阅读7分38秒阅读模式

项目概述

AgentCPM-GUI^[1]是一款由清华大学THUNLP实验室与面壁智能联合开发的开源端侧智能体大模型，基于MiniCPM-V构建，总参数量为8B。该模型能够接收手机屏幕图像作为输入，并根据用户指令自动完成相应任务。这是一个专为中文环境优化的GUI智能体，能够操控安卓应用程序完成各种复杂交互任务。

核心特性

高质量GUI基础能力：通过在大规模中英文Android数据集上预训练，模型对常见GUI控件（如按钮、输入框、标签、图标等）具备出色的定位与理解能力，为精确操作奠定基础。
中文APP应用适配：作为首个针对中文APP精细优化的开源GUI Agent，模型支持高德地图、大众点评、哔哩哔哩、小红书等30余个主流中文应用，解决了中文界面交互的特殊挑战。
增强的规划推理能力：通过强化微调技术（RFT），使模型在输出动作前进行详细的推理思考，显著提升复杂任务执行的成功率，使操作更加智能化。
紧凑的动作空间设计：采用优化的动作空间和紧凑的JSON格式，平均动作长度仅9.7个token，大幅提升端侧推理效率，降低了资源消耗。

技术架构

AgentCPM-GUI建立在MiniCPM-V模型基础上，通过监督微调（SFT）和强化学习微调（RFT）两个阶段训练而成：

监督微调（SFT）：使用包含屏幕截图和相应操作的大规模标注数据集，训练模型理解界面元素并生成正确的操作行为。
强化微调（RFT）：通过自我探索和反馈机制，优化模型的思考能力和决策策略，提高复杂场景下的任务完成率。
动作设计：采用JSON结构化输出，支持多种操作类型：

POINT：点击屏幕指定位置
to：从当前位置滑动（上、下、左、右或特定坐标）
TYPE：输入文本
PRESS：特殊按键操作（HOME、BACK、ENTER）
支持思考（thought）过程输出，增强可解释性

性能评估

AgentCPM-GUI在多个基准测试中表现卓越：

GUI元素识别（Grounding）：

fun2point：79.1%（领先）
text2point：76.5%（领先）
bbox2text：58.2%（领先）
平均：71.3%（远超第二名44.3%）

任务执行（Agent）：

在Android Control、GUI-Odyssey、AITZ等英文测试集上取得领先成绩
在中文APP测试集上表现尤为突出（TM 96.86%，EM 91.28%）
显著超越Qwen2.5-VL、UI-TARS等主流模型以及GPT-4o、Gemini 2.0等闭源大模型

MobileUse手机控制

功能描述

使用触摸屏与移动设备互动，并截取屏幕截图。

这是一个与带有触摸屏的移动设备交互的界面。您可以执行点击、输入、滑动等操作。

某些应用程序可能需要时间启动或处理操作，因此您可能需要等待并连续截取屏幕截图才能看到操作结果。

屏幕分辨率为 {self.display_width_px}x{self.display_height_px}。

请确保使用光标尖端点击按钮、链接、图标等元素的中心。除非另有要求，否则不要点击框的边缘。

工具列表描述

要执行的动作。可用的动作如下：

要执行的动作。可用的动作如下：

key：在移动设备上执行按键事件。

这支持 adb 的 keyevent 语法。

示例："volume_up"（音量增大）、"volume_down"（音量减小）、"power"（电源键）、"camera"（相机键）、"clear"（清除键）。

click：点击屏幕上坐标为 (x, y) 的点。

long_press：按住屏幕上坐标为 (x, y) 的点指定秒数。

swipe：从起始点坐标 (x, y) 滑动到终点坐标 (x2, y2)。

type：在激活的输入框中输入指定的文本。

system_button：按下系统按键。

open：在设备上打开应用。

wait：等待指定的秒数以使更改发生。

terminate：终止当前任务并报告其完成状态。

基于大模型的Function Call机制实现，Android控制部分基于Android Debug Bridge协议实现，支持以上几个操作类型，详情见AgentCPM-GUI/eval/utils/utils_qwen/agent_function_call.py

项目中，还有一些ComputerUse 的代码，我没太理解为啥要操控电脑。

应用场景

智能手机自动化：替代传统脚本，通过自然语言指令完成日常操作任务
无障碍辅助：帮助行动不便用户操控手机应用
应用测试与QA：自动执行应用测试流程，发现潜在问题
智能助手集成：为现有智能助手提供视觉交互能力
教育引导：辅助新用户学习复杂应用的使用方法

部署与使用

模型支持多种部署方式：

Hugging Face推理：直接加载模型进行推理，支持本地GPU加速
vLLM服务部署：通过vLLM部署高性能推理服务，适合多用户场景
自定义训练：开源了SFT和RFT训练代码，可根据特定需求进行调整和优化

未来展望

作为端侧GUI智能体的前沿实践，AgentCPM-GUI开启了多模态AI与手机交互的新范式，未来有望在以下方向持续发展：

扩展到更多应用场景和平台（如iOS、桌面系统）
增强跨应用任务规划和执行能力
降低模型参数量，提升端侧部署效率
增强个性化适应能力，根据用户习惯调整交互方式

看到这里，想必一些搞黑产、灰产的同学肯定早有动作了，那么作为防御方的你，又开始头疼了吗？

参考资料

[1]

AgentCPM-GUI: https://github.com/OpenBMB/AgentCPM-GUI

原文始发于微信公众号（榫卯江湖）：AgentCPM-GUI：MobileUse智能体基于图像推理，操控手机

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

AgentCPM-GUI：MobileUse智能体基于图像推理，操控手机

项目概述

核心特性

技术架构

性能评估

MobileUse手机控制

功能描述

工具列表描述

应用场景

部署与使用

未来展望

应急响应工具 QDoctor

取证+渗透综合系统

【免杀系列】使用donut配合EasyTools轻松实现Mimikatz等工具的免杀处理

探索 Moonshot：一站式大语言模型评测与红队测试利器

网络攻防必刷的靶场

一款智能且可控的目录爆破工具

一文掌握 IDA Pro MCP 逆向分析利器

渗透测试报告自动生成工具 |ReportGenX

SonarQube安装、扫描步骤

工具推荐|AnxReader开源的电子书阅读器

发表评论

在线咨询

微信