项目概述
AgentCPM-GUI[1]是一款由清华大学THUNLP实验室与面壁智能联合开发的开源端侧智能体大模型,基于MiniCPM-V构建,总参数量为8B。该模型能够接收手机屏幕图像作为输入,并根据用户指令自动完成相应任务。这是一个专为中文环境优化的GUI智能体,能够操控安卓应用程序完成各种复杂交互任务。
核心特性
-
高质量GUI基础能力:通过在大规模中英文Android数据集上预训练,模型对常见GUI控件(如按钮、输入框、标签、图标等)具备出色的定位与理解能力,为精确操作奠定基础。
-
中文APP应用适配:作为首个针对中文APP精细优化的开源GUI Agent,模型支持高德地图、大众点评、哔哩哔哩、小红书等30余个主流中文应用,解决了中文界面交互的特殊挑战。
-
增强的规划推理能力:通过强化微调技术(RFT),使模型在输出动作前进行详细的推理思考,显著提升复杂任务执行的成功率,使操作更加智能化。
-
紧凑的动作空间设计:采用优化的动作空间和紧凑的JSON格式,平均动作长度仅9.7个token,大幅提升端侧推理效率,降低了资源消耗。
技术架构
AgentCPM-GUI建立在MiniCPM-V模型基础上,通过监督微调(SFT)和强化学习微调(RFT)两个阶段训练而成:
-
监督微调(SFT):使用包含屏幕截图和相应操作的大规模标注数据集,训练模型理解界面元素并生成正确的操作行为。
-
强化微调(RFT):通过自我探索和反馈机制,优化模型的思考能力和决策策略,提高复杂场景下的任务完成率。
-
动作设计:采用JSON结构化输出,支持多种操作类型:
-
POINT:点击屏幕指定位置 -
to:从当前位置滑动(上、下、左、右或特定坐标) -
TYPE:输入文本 -
PRESS:特殊按键操作(HOME、BACK、ENTER) -
支持思考(thought)过程输出,增强可解释性
性能评估
AgentCPM-GUI在多个基准测试中表现卓越:
-
GUI元素识别(Grounding):
-
fun2point:79.1%(领先) -
text2point:76.5%(领先) -
bbox2text:58.2%(领先) -
平均:71.3%(远超第二名44.3%) -
任务执行(Agent):
-
在Android Control、GUI-Odyssey、AITZ等英文测试集上取得领先成绩 -
在中文APP测试集上表现尤为突出(TM 96.86%,EM 91.28%) -
显著超越Qwen2.5-VL、UI-TARS等主流模型以及GPT-4o、Gemini 2.0等闭源大模型
MobileUse手机控制
功能描述
使用触摸屏与移动设备互动,并截取屏幕截图。
这是一个与带有触摸屏的移动设备交互的界面。您可以执行点击、输入、滑动等操作。 某些应用程序可能需要时间启动或处理操作,因此您可能需要等待并连续截取屏幕截图才能看到操作结果。 屏幕分辨率为 {self.display_width_px}x{self.display_height_px}。 请确保使用光标尖端点击按钮、链接、图标等元素的中心。除非另有要求,否则不要点击框的边缘。
工具列表描述
要执行的动作。可用的动作如下:
要执行的动作。可用的动作如下:
key
:在移动设备上执行按键事件。
这支持 adb 的 keyevent
语法。示例:"volume_up"(音量增大)、"volume_down"(音量减小)、"power"(电源键)、"camera"(相机键)、"clear"(清除键)。
click
:点击屏幕上坐标为 (x, y) 的点。long_press
:按住屏幕上坐标为 (x, y) 的点指定秒数。swipe
:从起始点坐标 (x, y) 滑动到终点坐标 (x2, y2)。type
:在激活的输入框中输入指定的文本。system_button
:按下系统按键。open
:在设备上打开应用。wait
:等待指定的秒数以使更改发生。terminate
:终止当前任务并报告其完成状态。
基于大模型的Function Call机制实现,Android控制部分基于Android Debug Bridge协议实现,支持以上几个操作类型,详情见AgentCPM-GUI/eval/utils/utils_qwen/agent_function_call.py
项目中,还有一些ComputerUse
的代码,我没太理解为啥要操控电脑。
应用场景
-
智能手机自动化:替代传统脚本,通过自然语言指令完成日常操作任务 -
无障碍辅助:帮助行动不便用户操控手机应用 -
应用测试与QA:自动执行应用测试流程,发现潜在问题 -
智能助手集成:为现有智能助手提供视觉交互能力 -
教育引导:辅助新用户学习复杂应用的使用方法
部署与使用
模型支持多种部署方式:
-
Hugging Face推理:直接加载模型进行推理,支持本地GPU加速 -
vLLM服务部署:通过vLLM部署高性能推理服务,适合多用户场景 -
自定义训练:开源了SFT和RFT训练代码,可根据特定需求进行调整和优化
未来展望
作为端侧GUI智能体的前沿实践,AgentCPM-GUI开启了多模态AI与手机交互的新范式,未来有望在以下方向持续发展:
-
扩展到更多应用场景和平台(如iOS、桌面系统) -
增强跨应用任务规划和执行能力 -
降低模型参数量,提升端侧部署效率 -
增强个性化适应能力,根据用户习惯调整交互方式
看到这里,想必一些搞黑产、灰产的同学肯定早有动作了,那么作为防御方的你,又开始头疼了吗?
AgentCPM-GUI: https://github.com/OpenBMB/AgentCPM-GUI
原文始发于微信公众号(榫卯江湖):AgentCPM-GUI:MobileUse智能体基于图像推理,操控手机
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论