Crawl4AI：一款用于AI的开源爬虫工具

admin

140817
文章

117
评论

2024年5月31日09:33:05评论219 views字数 1423阅读4分44秒阅读模式

介绍

Crawl4AI是一个强大的免费Web爬虫工具，旨在从Web页面中提取有用的信息，并使其可用于大型语言模型(LLMs)和AI应用程序。

功能特点

高效的Web爬虫，用于从网站中提取有价值的数据
LLM友好输出格式（JSON、cleaned HTML、Markdown）
支持同时爬取多个URL
替换媒体标签为ALT
完全免费使用和开源

使用Crawl4AI

有两种方式使用Crawl4AI：作为Python项目中的库或作为独立的本地服务器。

作为库使用Crawl4AI

安装Crawl4AI：

pip install git+https://github.com/unclecode/crawl4ai.git

导入必要的模块：

from crawl4ai.web_crawler import WebCrawler from crawl4ai.models import UrlModel import os

创建爬虫对象：

crawler = WebCrawler(db_path='crawler_data.db')

爬取单个页面：

single_url = UrlModel(url='https://kidocode.com', forced=False) result = crawl4ai.fetch_page(     single_url,      provider= "openai/gpt-3.5-turbo",      api_token = os.getenv('OPENAI_API_KEY'),     extract_blocks_flag=False  )

爬取多个页面：

urls = [     UrlModel(url='http://example.com', forced=False),     UrlModel(url='http://example.org', forced=False) ] results = crawl4ai.fetch_pages(     urls,      provider= "openai/gpt-3.5-turbo",      api_token = os.getenv('OPENAI_API_KEY'),      extract_blocks_flag=True,  )

作为本地服务器使用Crawl4AI

克隆仓库：

git clone https://github.com/unclecode/crawl4ai.git

构建Docker镜像：

docker build -t crawl4ai .

运行Docker容器：

docker run -d -p 8000:80 crawl4ai

访问应用程序：

http://localhost:8000

配置参数

参数	描述	是否必需	默认值
urls	要爬取的URL列表	是	-
provider_model	提供商和模型	是	-
api_token	API token	是	-
include_raw_html	是否包含原始HTML内容	否	false
forced	是否强制重新爬取	否	false
extract_blocks_flag	是否提取语义块	否	false
word_count_threshold	最小单词数量阈值	否	5

项目地址

https://github.com/unclecode/crawl4ai

原文始发于微信公众号（昊天信安）：Crawl4AI：一款用于AI的开源爬虫工具

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Crawl4AI：一款用于AI的开源爬虫工具

介绍

功能特点

使用Crawl4AI

作为库使用Crawl4AI

作为本地服务器使用Crawl4AI

配置参数

项目地址

工具集：P1finger 【重点资产指纹识别工具】2025/5/10更新

黑客必刷的23个网安攻防靶场

HarmonyOS NEXT鸿蒙应用反编译器 .abcD 发布试用

AWVS最新破解版25.1.250204

web指纹识别工具 - httpgo

DrawDB数据库实体关系 (DBER) 编辑器

中国蚁剑（AntSword v4.0.3）安装以及使用保姆及教程

Invicti-Professional-v25.5.0

攻防必备：7种网站信息自动化收集技术与工具—从被动侦察到隐藏资产发现

网络安全界的瑞士军刀之netcat工具使用

发表评论

在线咨询

微信