介绍
Crawl4AI是一个强大的免费Web爬虫工具,旨在从Web页面中提取有用的信息,并使其可用于大型语言模型(LLMs)和AI应用程序。
功能特点
- 高效的Web爬虫,用于从网站中提取有价值的数据
- LLM友好输出格式(JSON、cleaned HTML、Markdown)
- 支持同时爬取多个URL
- 替换媒体标签为ALT
- 完全免费使用和开源
使用Crawl4AI
有两种方式使用Crawl4AI:作为Python项目中的库或作为独立的本地服务器。
作为库使用Crawl4AI
- 安装Crawl4AI:
pip install git+https://github.com/unclecode/crawl4ai.git
- 导入必要的模块:
from crawl4ai.web_crawler import WebCrawler from crawl4ai.models import UrlModel import os
- 创建爬虫对象:
crawler = WebCrawler(db_path='crawler_data.db')
- 爬取单个页面:
single_url = UrlModel(url='https://kidocode.com', forced=False) result = crawl4ai.fetch_page( single_url, provider= "openai/gpt-3.5-turbo", api_token = os.getenv('OPENAI_API_KEY'), extract_blocks_flag=False )
- 爬取多个页面:
urls = [ UrlModel(url='http://example.com', forced=False), UrlModel(url='http://example.org', forced=False) ] results = crawl4ai.fetch_pages( urls, provider= "openai/gpt-3.5-turbo", api_token = os.getenv('OPENAI_API_KEY'), extract_blocks_flag=True, )
作为本地服务器使用Crawl4AI
- 克隆仓库:
git clone https://github.com/unclecode/crawl4ai.git
- 构建Docker镜像:
docker build -t crawl4ai .
- 运行Docker容器:
docker run -d -p 8000:80 crawl4ai
- 访问应用程序:
http://localhost:8000
配置参数
参数 | 描述 | 是否必需 | 默认值 |
---|---|---|---|
urls | 要爬取的URL列表 | 是 | - |
provider_model | 提供商和模型 | 是 | - |
api_token | API token | 是 | - |
include_raw_html | 是否包含原始HTML内容 | 否 | false |
forced | 是否强制重新爬取 | 否 | false |
extract_blocks_flag | 是否提取语义块 | 否 | false |
word_count_threshold | 最小单词数量阈值 | 否 | 5 |
项目地址
https://github.com/unclecode/crawl4ai
原文始发于微信公众号(昊天信安):Crawl4AI:一款用于AI的开源爬虫工具
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论