開源 AI 爬蟲專案推薦#
01. Crawl4AI#
Crawl4AI 簡化了 Web 數據異步提取的過程,使 Web 數據提取簡單高效,非常適合 AI 和 LLM 應用程式。
優勢特徵:#
- 100% 開源免費:完全開放源代碼。
- 閃電般的性能:在快速可靠的抓取方面優於許多付費服務。
- 基於 AI LLM 構建:以 JSON、HTML 或 Markdown 格式輸出數據。
- 多瀏覽器支持:可與 Chromium、Firefox 和 WebKit 無縫配合。
- 可同時抓取多個 URL:一次處理多個網站,以實現高效的數據提取。
- 全媒體支持:輕鬆提取圖像、音頻、視頻以及所有 HTML 媒體標籤。
- 提取鏈接:獲取所有內部和外部鏈接以獲得更深入的數據挖掘。
- XML 元數據檢索:捕獲頁面標題、描述和其他元數據。
- 可定制:添加用於身份驗證、標題或自定義頁面修改的功能。
- 支持匿名:自定義用戶代理設置。
- 支持截圖:具備強大的錯誤處理功能,拍攝頁面快照。
- 自定義 JavaScript:在抓取定制結果之前執行腳本。
- 結構化數據輸出:根據規則生成良好的 JSON 數據。
- 智能提取:使用 LLM、集群、正則表達式或 CSS 選擇器進行準確的數據抓取。
- 代理驗證:通過安全代理支持訪問受保護的內容。
- 會話管理:輕鬆處理多頁導航。
- 圖像優化:支持延遲加載和響應式圖像。
- 動態內容處理:管理互動式頁面的延遲加載。
- 對 LLM 友好的頭文件:為特定於 LLM 的互動傳遞自定義頭文件。
- 精確提取:使用關鍵字或指令優化結果。
- 靈活的設置:調整超時和延遲,以實現更流暢的抓取。
- iframe 支持:提取 iframe 中的內容,以獲得更深入的數據提取。
02. ScrapeGraphAI#
ScrapeGraphAI 是一個用於 Web 數據爬取的 Python 庫,它使用 LLM 和邏輯圖為網站或本地文檔(XML、HTML、JSON、Markdown 等)創建抓取流程。
03. LLM Scraper#
LLM Scraper 是一個基於 LLM 的爬蟲 TypeScript 庫,並且支持代碼生成功能。
優勢特徵:#
- 支持本地或 MaaS 提供商:兼容 Ollama、GGUF、OpenAI、Vercel AI SDK。
- 完全類型安全:使用 Zod 定義的模式,基於 TypeScript 實現。
- 基於 Playwright 框架:流式對象支持。
- 代碼生成:支持代碼生成功能。
- 四種數據格式化模式:
- HTML:用於加載原始 HTML。
- Markdown:用於加載 Markdown。
- Text:用於加載提取的文本(使用 Readability.js)。
- Image:用於加載螢幕截圖(僅限多模式)。
04. Crawlee Python#
Crawlee 是一個 Web 爬蟲以及瀏覽器自動化 Python 庫。通過 AI、LLM、RAG 或 GPT 提取網頁數據,包括從網站下載 HTML、PDF、JPG、PNG 和其他文件。適用於 BeautifulSoup、Playwright 和原始 HTTP,支持有頭和無頭模式,以及代理輪換規則。
05. CyberScraper 2077#
CyberScraper 2077 是一款基於 OpenAI、Gemini 或本地大模型的 Web 爬取工具,專為精確高效的數據提取而設計,適合數據分析師、技術愛好者和任何需要簡化在線信息訪問的人。
優勢特點:#
- 基於人工智能的提取:利用人工智能模型智能理解和解析 Web 內容。
- 流暢的流線型界面:友好的用戶 GUI。
- 多格式支持:以 JSON、CSV、HTML、SQL 或 Excel 格式導出數據。
- Tor 網絡支持:安全地抓取.onion 網站,提供自動路由和安全功能。
- 隱身模式:實現隱身模式參數,幫助避免被檢測為機器人。
- LLM 支持:提供支持各種 LLM 的功能。
- 異步操作:異步操作以實現快速操作。
- 智能解析:抓取內容如同直接從主記憶中提取。
- 緩存:使用 LRU 緩存和自定義字典實現基於內容和查詢的緩存,減少冗餘 API 調用。
- 支持上傳到 Google 表格:輕鬆將提取的 CSV 數據上傳到 Google 表格。
- 驗證碼繞過:可通過使用 URL 末尾的 captcha 來繞過驗證碼(目前只能在本地工作,不能在 Docker 上工作)。
- 當前瀏覽器:使用本地瀏覽器環境,幫助繞過 99% 的機器人檢測。
- 代理模式(即將推出):內置代理支持,幫助繞過網絡限制。
- 瀏覽頁面:瀏覽網頁並從不同頁面抓取數據。