Crawl4AI:一款用于AI的开源爬虫工具

admin 2024年5月31日09:33:05评论219 views字数 1423阅读4分44秒阅读模式

介绍

Crawl4AI是一个强大的免费Web爬虫工具,旨在从Web页面中提取有用的信息,并使其可用于大型语言模型(LLMs)和AI应用程序。

功能特点

  • 高效的Web爬虫,用于从网站中提取有价值的数据
  • LLM友好输出格式(JSON、cleaned HTML、Markdown)
  • 支持同时爬取多个URL
  • 替换媒体标签为ALT
  • 完全免费使用和开源

使用Crawl4AI

有两种方式使用Crawl4AI:作为Python项目中的库或作为独立的本地服务器。

作为库使用Crawl4AI

  1. 安装Crawl4AI:
pip install git+https://github.com/unclecode/crawl4ai.git 
  1. 导入必要的模块:
from crawl4ai.web_crawler import WebCrawler from crawl4ai.models import UrlModel import os 
  1. 创建爬虫对象:
crawler = WebCrawler(db_path='crawler_data.db') 
  1. 爬取单个页面:
single_url = UrlModel(url='https://kidocode.com', forced=False) result = crawl4ai.fetch_page(     single_url,      provider= "openai/gpt-3.5-turbo",      api_token = os.getenv('OPENAI_API_KEY'),     extract_blocks_flag=False  ) 
  1. 爬取多个页面:
urls = [     UrlModel(url='http://example.com', forced=False),     UrlModel(url='http://example.org', forced=False) ] results = crawl4ai.fetch_pages(     urls,      provider= "openai/gpt-3.5-turbo",      api_token = os.getenv('OPENAI_API_KEY'),      extract_blocks_flag=True,  ) 

作为本地服务器使用Crawl4AI

  1. 克隆仓库:
git clone https://github.com/unclecode/crawl4ai.git 
  1. 构建Docker镜像:
docker build -t crawl4ai . 
  1. 运行Docker容器:
docker run -d -p 8000:80 crawl4ai 
  1. 访问应用程序:
http://localhost:8000 

配置参数

参数 描述 是否必需 默认值
urls 要爬取的URL列表 -
provider_model 提供商和模型 -
api_token API token -
include_raw_html 是否包含原始HTML内容 false
forced 是否强制重新爬取 false
extract_blocks_flag 是否提取语义块 false
word_count_threshold 最小单词数量阈值 5

项目地址

https://github.com/unclecode/crawl4ai

原文始发于微信公众号(昊天信安):Crawl4AI:一款用于AI的开源爬虫工具

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年5月31日09:33:05
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   Crawl4AI:一款用于AI的开源爬虫工具https://cn-sec.com/archives/2786627.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息