Py学习  »  Git

Github 53.3K star,一款让AI驱动的数据采集更高效的开源利器!

编程技术进阶 • 1 月前 • 212 次点击  

点击上方卡片关注我

设置星标 学习更多项目

传统爬虫面对动态页面、复杂反爬和内容结构混乱,常常让数据工程师和程序员抓狂。尤其是为 AI 和知识库采集数据时,输出格式杂乱,后续处理效率低下。Crawl4AI 专为这些而生,开箱即用,自动生成结构化 Markdown,动态内容也能轻松拿下,是 AI 时代数据采集的高效利器。

图片

Crawl4AI是什么?

Crawl4AI 是一款专为 AI 应用场景设计的开源网页爬虫,由 UncleCode 开发,主打“LLM 友好型输出”,能将网页内容智能转换为结构化 Markdown、JSON,支持深度定制、动态内容采集、LLM驱动抽取,并且部署灵活,极大提升数据采集效率和质量。它专为 RAG 检索增强生成、AI Agent、数据管道等场景设计,社区活跃,持续更新,是当前 GitHub 上最受关注的爬虫项目之一。

核心功能

1. Markdown 智能生成

Crawl4AI 能将网页内容智能转换为干净、结构化的 Markdown,并自动过滤广告、导航等噪音内容。内置 BM25/Pruning 算法,精准提取核心信息,极适合 AI 语料构建。

2. 多样化数据抽取

  • 结构化数据抽取:支持 CSS/XPath/自定义 Schema,提取表格、价格、评论等结构化数据。
  • LLM驱动抽取:集成 OpenAI、Claude、Gemini 等主流大模型,语义理解更强,复杂内容抽取更智能。
  • 智能分块:支持按主题、正则、句子分块,方便大模型处理长文本。

3. 动态内容与浏览器控制

  • 浏览器集成:内置 Playwright,支持 Chromium、Firefox、Webkit,自动处理 JS 动态加载、无限滚动、懒加载图片等。
  • 持久化会话与远程控制:可接管本地浏览器,实现自动登录、Cookie复用,突破反爬与认证壁垒。
  • 代理与防检测:集成隐身模式,支持多种代理配置,有效规避 Cloudflare、Akamai 等反爬机制。

4. 媒体与元数据采集

支持图片、音频、视频等多媒体内容抽取,能获取页面元数据、链接分析、iframe嵌入内容,全面覆盖网页数据要素。

5. 部署与扩展

  • Docker 一键部署:官方优化镜像,内置 FastAPI,支持 API 网关与 JWT 认证。
  • 云原生支持:可快速部署到主流云平台,适合大规模生产环境。
  • 自定义策略与 Hook:每一步都可自定义 Hook,灵活扩展采集流程

快速上手

1. Python 包安装

pip install crawl4ai
crawl4ai-setup    # 自动安装浏览器环境
crawl4ai-doctor   # 检查安装情况

如遇 Playwright 浏览器问题,可手动安装:

python -m playwright install --with-deps chromium

2. 代码示例:基础爬取

import asyncio
from crawl4ai import *

async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(
            url="https://www.nbcnews.com/business",
        )
        print(result.markdown)

if __name__ == "__main__":
    asyncio.run(main())

3. 命令行爬取

crwl https://www.nbcnews.com/business -o markdown
crwl https://docs.crawl4ai.com --deep-crawl bfs --max-pages 10
crwl https://www.example.com/products -q "提取所有产品价格"

4. Docker 部署

docker pull unclecode/crawl4ai:0.7.0
docker run -d -p 11235:11235 --name crawl4ai --shm-size=1g unclecode/crawl4ai:0.7.0
# 访问 http://localhost:11235/playground

与传统爬虫的对比

项目
Crawl4AI
Scrapy/Selenium/BS4
输出格式
Markdown/JSON
HTML/自定义
动态内容支持
极强
需繁琐定制
AI原生支持
并发性能
部署方式
CLI/Docker/云
需手动配置
反爬能力
社区活跃度

总结

Crawl4AI 的出现,为数据采集和内容结构化带来了全新体验。通过异步并发、浏览器自动化和智能分块等技术,Crawl4AI 能灵活应对复杂网页结构和动态内容,满足多场景的数据抓取需求。支持多格式输出,轻松集成至命令行、Docker 或云原生环境,方便开发者快速部署和扩展。无论是知识库建设、AI语料整理,还是自动化数据管道,Crawl4AI 都能助力高效完成任务,是提升数据采集效率和质量的理想工具。

项目地址

GitHub项目地址:https://github.com/unclecode/crawl4ai

AI工具的成熟,让程序员也有了以前不敢想象的能力。海外市场的广阔,给了我们更大的舞台。

如果你也在考虑新的出路,如果你也想尝试AI编程出海这个方向,欢迎加入我们。

推荐阅读👉️推荐我的AI编程出海训练营!

扫码或搜索 257735 添加微信,发送暗号「美金」,了解详细信息。

图片

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/187519