本文将探讨如何将 Browser-Use 与 Steel-Browser 这两个工具结合,以便让大语言模型(LLM)像人类一样自然地浏览和操作网页,比如点击按钮、填写表单等复杂任务。通过环境的安装配置和示例实践,介绍如何实现这一目标。
什么是 Browser-Use?
01
什么是 Browser-Use?
Browser-Use 是一款专为大语言模型(LLM)设计的浏览器工具,能够使AI代理模拟人类用户在网页上的浏览和操作。Browser Use的核心优势在于,它让AI能够像人类一样与网页进行交互,无需开发者编写复杂的爬虫代码或自动化脚本。通过自然语言指令,AI能够完成网页浏览、搜索、填写表单和点击等常见任务。
02
什么是 Steel-Browser?
是一个开源浏览器API,专为AI应用构建的开源浏览器自动化 API,可以轻松构建与Web交互的AI应用程序和代理。
03
如何将 Browser-Use 与
Steel-Browser 结合使用?
要实现这两个工具的结合,开发者需要进行以下几个步骤:
什么是 Browser-Use?
步骤1:安装browser-use
我们使用conda创建一个python3.12版本的环境,用于安装browser-use
创建完成后激活环境:
使用pip安装browser-use
什么是 Browser-Use?
步骤2:安装steel-browser
通过docker部署steel-browser
本文所使用版本为Release v0.1.3-beta
github下载发布版本源码包,使用docker compose -f docker-compose.dev.yml up进行构建
构建成功后跳过docker ps查看,会看到两个运行的容器:
UI界面服务:steel-browser-013-beta-ui-1,通过浏览器访问http://localhost:5173可看到界面
通过WebSocket 提供的API接口服务:steel-browser-013-beta-api-1。
什么是 Browser-Use?
步骤3:LLM配置
创建个项目文件夹,并在文件夹下创建个.env文件用于配置LLM相关的API_KEY等信息。(本文使用DeepSeek-V3模型)
.env文件内容配置如下:
OPENAI_API_KEY=sk-******************** #替换为自己的deepseek API_KEY
OPENAI_BASE_URL=https://api.deepseek.com/v1
什么是 Browser-Use?
步骤4:编码实现
先安装SDK:
确保您已安装 Chrome 可执行文件并位于以下路径之一中:
Linux的:/usr/bin/google-chrome
MacOS:/Applications/Google Chrome.app/Contents/MacOS/Google Chrome
Windows (窗口):
C:Program FilesGoogleChromeApplicationchrome.exe或
C:Program Files (x86)GoogleChromeApplicationchrome.exe
新建文件browser_tools.py,代码如下:
什么是 Browser-Use?
步骤5:运行代码
运行python代码,并在浏览器中打开steel-browser的UI界面(http://localhost:5173),可以看到已经自动对dvwa站点按要求执行操作,如下图识别到登录页面后自动填充提供的用户名和密码进行登录验证。
查看命令行打印日志:
首次使用username `admin` and password `password1`的组合登录,验证失败。
接着自动更换使用下个用户名和密码验证,打印日志:
显示已经使用admin登录成功。
登录成功后展示页面:
按要求输出JSON格式结果:
04
总结
以上是一个非常简单的点为例展示了通过自然语言的描述可以让AI自动操作浏览器访问指定的Web页,由此可扩展到实现其它的交互操作,结合Multi-agent多智能体实现更具有团队性质的更复杂的任务。通过结合 Browser-Use 和 Steel-Browser,我们可以在多个场景中实现高效的自动化操作。Web自动化测试:自动化执行用户操作,模拟实际的浏览器交互,从而测试 Web 应用的稳定性和性能。网页抓取:利用浏览器引擎高效地抓取页面内容,结合自动化脚本获取和解析数据。
持续集成与部署:在CI/CD流水线中嵌入自动化浏览器操作,自动执行任务,如点击、表单提交等。随着技术的发展,自动化浏览器操作将为Web开发和运维带来更多创新和便利,帮助我们实现更加智能化和高效的互联网服务。
四叶草安全
原文始发于微信公众号(四叶草安全):从指令到执行:自然语言驱动多智能体实现Web自动化革命
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论