オープンソース AI クローラープロジェクトの推薦#
01. Crawl4AI#
Crawl4AI は Web データの非同期抽出プロセスを簡素化し、Web データの抽出を簡単かつ効率的に行うことができ、AI や LLM アプリケーションに非常に適しています。
特徴:#
- 100% オープンソース無料:完全にオープンソースのコード。
- 驚異的なパフォーマンス:迅速で信頼性の高いクローリングにおいて多くの有料サービスを上回ります。
- AI LLM に基づいて構築:JSON、HTML、または Markdown 形式でデータを出力します。
- 複数のブラウザサポート:Chromium、Firefox、WebKit とシームレスに連携。
- 複数の URL を同時にクローリング:複数のサイトを一度に処理し、効率的なデータ抽出を実現。
- 全メディアサポート:画像、音声、動画、すべての HTML メディアタグを簡単に抽出。
- リンク抽出:すべての内部および外部リンクを取得し、より深いデータマイニングを実現。
- XML メタデータ取得:ページタイトル、説明、およびその他のメタデータをキャプチャ。
- カスタマイズ可能:認証、ヘッダー、またはカスタムページの変更のための機能を追加。
- 匿名サポート:カスタムユーザーエージェント設定。
- スクリーンショットサポート:強力なエラーハンドリング機能を備え、ページのスナップショットを撮影。
- カスタム JavaScript:クローリングカスタム結果の前にスクリプトを実行。
- 構造化データ出力:ルールに基づいて良好な JSON データを生成。
- インテリジェント抽出:LLM、クラスター、正規表現、または CSS セレクターを使用して正確なデータを抽出。
- プロキシ検証:安全なプロキシを介して保護されたコンテンツにアクセスをサポート。
- セッション管理:複数ページのナビゲーションを簡単に処理。
- 画像最適化:遅延読み込みとレスポンシブ画像をサポート。
- 動的コンテンツ処理:インタラクティブなページの遅延読み込みを管理。
- LLM フレンドリーなヘッダー:LLM 特有のインタラクションのためにカスタムヘッダーを渡す。
- 正確な抽出:キーワードや指示を使用して結果を最適化。
- 柔軟な設定:タイムアウトや遅延を調整し、よりスムーズなクローリングを実現。
- iframe サポート:iframe 内のコンテンツを抽出し、より深いデータ抽出を実現。
02. ScrapeGraphAI#
ScrapeGraphAI は Web データクローリングのための Python ライブラリで、LLM と論理グラフを使用してウェブサイトやローカルドキュメント(XML、HTML、JSON、Markdown など)のクローリングフローを作成します。
03. LLM Scraper#
LLM Scraper は LLM に基づくクローラー TypeScript ライブラリで、コード生成機能をサポートしています。
特徴:#
- ローカルまたは MaaS プロバイダーをサポート:Ollama、GGUF、OpenAI、Vercel AI SDK と互換性があります。
- 完全な型安全性:Zod で定義されたスキーマを使用し、TypeScript で実装。
- Playwright フレームワークに基づく:ストリーミングオブジェクトサポート。
- コード生成:コード生成機能をサポート。
- 4 つのデータフォーマットモード:
- HTML:生の HTML を読み込むために使用。
- Markdown:Markdown を読み込むために使用。
- Text:抽出されたテキストを読み込むために使用(Readability.js を使用)。
- Image:スクリーンショットを読み込むために使用(マルチモード専用)。
04. Crawlee Python#
Crawlee は Web クローラーおよびブラウザ自動化のための Python ライブラリです。AI、LLM、RAG、または GPT を使用してウェブページデータを抽出し、HTML、PDF、JPG、PNG などのファイルをウェブサイトからダウンロードします。BeautifulSoup、Playwright、原始 HTTP に適しており、ヘッドありおよびヘッドなしモード、さらにプロキシローテーションルールをサポート。
05. CyberScraper 2077#
CyberScraper 2077 は OpenAI、Gemini、またはローカル大規模モデルに基づく Web クローリングツールで、正確かつ効率的なデータ抽出のために設計されており、データアナリスト、技術愛好者、オンライン情報アクセスを簡素化したいすべての人に適しています。
特徴:#
- AI に基づく抽出:AI モデルを利用して Web コンテンツをインテリジェントに理解し解析。
- スムーズなインターフェース:ユーザーフレンドリーな GUI。
- 多フォーマットサポート:データを JSON、CSV、HTML、SQL、または Excel 形式でエクスポート。
- Tor ネットワークサポート:.onion サイトを安全にクローリングし、自動ルーティングとセキュリティ機能を提供。
- インビジブルモード:ボットとして検出されないようにするためのインビジブルモードパラメータを実現。
- LLM サポート:さまざまな LLM をサポートする機能を提供。
- 非同期操作:迅速な操作を実現するための非同期操作。
- インテリジェント解析:コンテンツを主記憶から直接抽出するかのようにクローリング。
- キャッシュ:LRU キャッシュとカスタム辞書を使用して、コンテンツとクエリに基づくキャッシュを実現し、冗長な API 呼び出しを削減。
- Google スプレッドシートへのアップロードをサポート:抽出した CSV データを簡単に Google スプレッドシートにアップロード。
- CAPTCHA 回避:URL の末尾に captcha を使用して CAPTCHA を回避(現在はローカルでのみ機能し、Docker では動作しません)。
- 現在のブラウザ:ローカルブラウザ環境を使用し、99% のボット検出を回避。
- プロキシモード(近日公開予定):内蔵プロキシサポートでネットワーク制限を回避。
- ページをブラウズ:ウェブページをブラウズし、異なるページからデータをクローリング。