以下是DroidRun的核心功能、安装步骤及使用方法的详细介绍
核心功能
1. 自然语言控制
用户可直接输入指令(如“打开相机”或“发送消息”),DroidRun 通过大型语言模型(LLM)解析并执行操作,无需手动编写脚本。
2. 视觉与UI解析
结合计算机视觉和 UI 控件树提取技术,精准识别屏幕元素(如按钮、输入框),实现复杂界面交互。
3. 智能自愈机制
遇到网络中断、弹窗广告等意外情况时,自动调整操作路径并恢复任务,提升自动化流程的稳健性。
4. 多语言模型支持
兼容 OpenAI、Google Gemini、Anthropic 等主流 LLM,用户可灵活选择模型并配置 API 密钥。
5. 开源与扩展性
代码已在 GitHub 开源,支持开发者二次开发和社区协作,未来计划推出多设备管理、元素追踪等新功能。
安装与配置
1. 安装方式
通过PyPI安装(推荐)
pip install droidrun
源码安装
克隆GitHub仓库并安装
git clone https://github.com/droidrun/droidrun.gitcd droidrunpip install -e .
2. 设备准备
Android 设备需启用 USB 调试模式(设置 → 开发者选项 → USB 调试)。
安装 ADB 工具(Windows/macOS/Linux 平台均支持)。
3. 安装DroidRun Portal APK
从官网或 GitHub 下载 APK 文件,通过 ADB 或手动安装到设备。
启用无障碍服务和屏幕截图权限。
4. 配置API密钥
在.env文件中添加LLM提供商的API密钥(如 OpenAI、Gemini),并通过命令行加载环境变量:
source .env
使用场景
1. 日常任务自动化
定时发送消息、查看新闻、管理日程等重复性操作。
2. 社交媒体管理
自动登录账号、批量发布帖子或上传图片。
3. 应用测试与开发
模拟用户操作,检测界面响应及性能问题。
4. 数据提取与分析
从应用中抓取数据(如餐厅信息)并生成结构化报告。
5. 多设备协同
支持批量控制多台设备,适用于企业级任务分发。
使用方法
1. 命令行界面(CLI)
基础指令
droidrun "打开浏览器"
指定模型与设备:
droidrun "检查电量" --provider gemini --model gemini-2.0-flash --device abc123
2. Python API脚本
开发者可通过Python实现复杂逻辑,例如:
pythonfrom droidrun.agent.react_agent import ReActAgentfrom droidrun.agent.llm_reasoning import LLMReasonerasync def main(): llm = LLMReasoner(provider="gemini", model_name="gemini-2.0-flash", api_key="YOUR_KEY") agent = ReActAgent(task="打开设置并检查系统版本", llm=llm) steps = await agent.run() print(f"任务完成,共执行 {len(steps)} 步")
未来发展与开源生态
开源地址
https://github.com/droidrun/droidrun
原文始发于微信公众号(哆啦安全):DroidRun是一款基于AI代理的开源工具
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论