从指令到执行:自然语言驱动多智能体实现Web自动化革命

admin 2025年6月18日00:58:03评论15 views字数 2060阅读6分52秒阅读模式
从指令到执行:自然语言驱动多智能体实现Web自动化革命

本文将探讨如何将 Browser-Use 与 Steel-Browser 这两个工具结合,以便让大语言模型(LLM)像人类一样自然地浏览和操作网页,比如点击按钮、填写表单等复杂任务。通过环境的安装配置和示例实践,介绍如何实现这一目标。

什么是 Browser-Use?

01

什么是 Browser-Use?

Browser-Use 是一款专为大语言模型(LLM)设计的浏览器工具,能够使AI代理模拟人类用户在网页上的浏览和操作。Browser Use的核心优势在于,它让AI能够像人类一样与网页进行交互,无需开发者编写复杂的爬虫代码或自动化脚本。通过自然语言指令,AI能够完成网页浏览、搜索、填写表单和点击等常见任务。

02

什么是 Steel-Browser?

是一个开源浏览器API,专为AI应用构建的开源浏览器自动化 API,可以轻松构建与Web交互的AI应用程序和代理。

03

如何将 Browser-Use 与 

Steel-Browser 结合使用?

要实现这两个工具的结合,开发者需要进行以下几个步骤:

什么是 Browser-Use?

步骤1:安装browser-use

我们使用conda创建一个python3.12版本的环境,用于安装browser-use

从指令到执行:自然语言驱动多智能体实现Web自动化革命

创建完成后激活环境:

从指令到执行:自然语言驱动多智能体实现Web自动化革命

使用pip安装browser-use

从指令到执行:自然语言驱动多智能体实现Web自动化革命

什么是 Browser-Use?

步骤2:安装steel-browser

通过docker部署steel-browser

本文所使用版本为Release v0.1.3-beta 

github下载发布版本源码包,使用docker compose -f docker-compose.dev.yml up进行构建

从指令到执行:自然语言驱动多智能体实现Web自动化革命

构建成功后跳过docker ps查看,会看到两个运行的容器:

从指令到执行:自然语言驱动多智能体实现Web自动化革命

UI界面服务:steel-browser-013-beta-ui-1,通过浏览器访问http://localhost:5173可看到界面

从指令到执行:自然语言驱动多智能体实现Web自动化革命

通过WebSocket 提供的API接口服务:steel-browser-013-beta-api-1。

什么是 Browser-Use?

步骤3:LLM配置

创建个项目文件夹,并在文件夹下创建个.env文件用于配置LLM相关的API_KEY等信息。(本文使用DeepSeek-V3模型)

从指令到执行:自然语言驱动多智能体实现Web自动化革命

.env文件内容配置如下:

OPENAI_API_KEY=sk-********************  #替换为自己的deepseek API_KEY

OPENAI_BASE_URL=https://api.deepseek.com/v1

什么是 Browser-Use?

步骤4:编码实现

先安装SDK:

从指令到执行:自然语言驱动多智能体实现Web自动化革命

确保您已安装 Chrome 可执行文件并位于以下路径之一中:

Linux的:/usr/bin/google-chrome

MacOS:/Applications/Google Chrome.app/Contents/MacOS/Google Chrome

Windows (窗口):

C:Program FilesGoogleChromeApplicationchrome.exe或

C:Program Files (x86)GoogleChromeApplicationchrome.exe

新建文件browser_tools.py,代码如下:

从指令到执行:自然语言驱动多智能体实现Web自动化革命

什么是 Browser-Use?

步骤5:运行代码

运行python代码,并在浏览器中打开steel-browser的UI界面(http://localhost:5173),可以看到已经自动对dvwa站点按要求执行操作,如下图识别到登录页面后自动填充提供的用户名和密码进行登录验证。

从指令到执行:自然语言驱动多智能体实现Web自动化革命

查看命令行打印日志:

从指令到执行:自然语言驱动多智能体实现Web自动化革命

首次使用username `admin` and password `password1`的组合登录,验证失败。

接着自动更换使用下个用户名和密码验证,打印日志:

从指令到执行:自然语言驱动多智能体实现Web自动化革命

显示已经使用admin登录成功。

登录成功后展示页面:

从指令到执行:自然语言驱动多智能体实现Web自动化革命

按要求输出JSON格式结果:      

从指令到执行:自然语言驱动多智能体实现Web自动化革命

04

总结

以上是一个非常简单的点为例展示了通过自然语言的描述可以让AI自动操作浏览器访问指定的Web页,由此可扩展到实现其它的交互操作,结合Multi-agent多智能体实现更具有团队性质的更复杂的任务。通过结合 Browser-Use 和 Steel-Browser,我们可以在多个场景中实现高效的自动化操作。Web自动化测试:自动化执行用户操作,模拟实际的浏览器交互,从而测试 Web 应用的稳定性和性能。网页抓取:利用浏览器引擎高效地抓取页面内容,结合自动化脚本获取和解析数据。

持续集成与部署:在CI/CD流水线中嵌入自动化浏览器操作,自动执行任务,如点击、表单提交等。随着技术的发展,自动化浏览器操作将为Web开发和运维带来更多创新和便利,帮助我们实现更加智能化和高效的互联网服务。

四叶草安全

地址:西安市高新区软件新城云汇谷C2 17层
电话:400-029-4789
官网:www.seclover.com
邮箱:support@seclover.com

从指令到执行:自然语言驱动多智能体实现Web自动化革命

原文始发于微信公众号(四叶草安全):从指令到执行:自然语言驱动多智能体实现Web自动化革命

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年6月18日00:58:03
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   从指令到执行:自然语言驱动多智能体实现Web自动化革命http://cn-sec.com/archives/4172508.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息