ウェブサイトの自動クロールをスケジューリングする方法

ウェブサイトの自動クロールをスケジューリングする方法

Schedules Crawling AI Agent Knowledge Base

FlowHuntのスケジュール機能を使えば、ウェブサイト、サイトマップ、ドメイン、YouTubeチャンネルのクロールとインデックス化を自動化できます。これにより、AIエージェントのナレッジベースは手動での作業なしでも常に最新のコンテンツで保たれます。

スケジューリングの仕組み

  • 自動クロール:
    日次・週次・月次・年次の定期クロールを設定し、ナレッジベースを常に最新に保てます。

  • 複数のクロールタイプ:
    コンテンツソースに応じて、ドメインクロール、サイトマップクロール、URLクロール、YouTubeチャンネルクロールから選択できます。

  • 高度なオプション:
    ブラウザレンダリング、リンク追跡、スクリーンショット、プロキシローテーション、URLフィルタリングなどの設定が可能です。

スケジュール設定オプション

基本設定

タイプ: クロール方法を選択します。

  • ドメインクロール: ドメイン全体を体系的にクロール
  • サイトマップクロール: ウェブサイトのsitemap.xmlを使って効率的にクロール
  • URLクロール: 特定のURLやページをターゲット
  • YouTubeチャンネルクロール: YouTubeチャンネルの動画コンテンツをインデックス化

頻度: クロールを実行する間隔を設定します。

  • 日次、週次、月次、年次

URL: クロール対象となるURL、ドメイン、またはYouTubeチャンネルを入力

高度なクロールオプション

ブラウザ使用(追加クレジット消費):
JavaScriptを多用したサイトなど、フルブラウザレンダリングが必要な場合に有効化します。処理は遅く高コストですが、動的なコンテンツの取得に必須です。

リンク追跡(追加クレジット消費):
ページ内で発見された追加URLもクロールします。サイトマップに全URLが含まれていない場合に便利ですが、発見リンクを巡回するため大量のクレジットを消費します。

スクリーンショット取得(追加クレジット消費):
クロール時にビジュアルスクリーンショットを取得します。og:imageがないサイトやAI処理時にビジュアルコンテキストが必要な場合に有効です。

プロキシローテーション使用(追加クレジット消費):
各リクエストでIPアドレスを変更し、WAFやボット対策を回避します。

URLフィルタリング

一致するURLをスキップ:
これらの文字列(1行につき1つ)を含むURLをクロール対象から除外します。例:

/admin/
/login
.pdf

例:flowhunt.ioのクロールで /blog をスキップする場合

この例では、FlowHuntのスケジュール機能でflowhunt.ioドメインをクロールし、URLフィルタリング設定の「一致するURLをスキップ」に/blogを指定した場合の動作を説明します。

設定内容

  • タイプ: ドメインクロール
  • URL: flowhunt.io
  • 頻度: 週次
  • URLフィルタリング(スキップパターン): /blog
  • その他の設定: デフォルト(ブラウザレンダリング・リンク追跡・スクリーンショット・プロキシローテーションなし)

動作の流れ

  1. クロール開始:

    • FlowHuntがflowhunt.ioのドメインクロールを開始し、ドメイン内の全てのアクセス可能なページ(例: flowhunt.io, flowhunt.io/features, flowhunt.io/pricingなど)をターゲットとします。
  2. URLフィルタリングの適用:

    • 発見した各URLに対し、スキップパターン/blogと照合します。
    • /blogを含むすべてのURL(例: flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/categoryなど)はクロール対象外となります。
    • 一方、flowhunt.io/about, flowhunt.io/contact, flowhunt.io/docsなど他のURLは/blogに一致しないためクロールされます。
  3. クロール実行:

    • クロール対象となるURLのみを体系的に処理し、AIエージェントのナレッジベース用にコンテンツをインデックス化します。
    • ブラウザレンダリング、リンク追跡、スクリーンショット、プロキシローテーションは無効なので、静的なコンテンツのみの軽量なクロールになります。
  4. 結果:

    • /blog配下を除くflowhunt.ioの新しいコンテンツでAIエージェントのナレッジベースが更新されます。
    • クロールは週1回実行され、手作業なしで最新状態が保たれます(/blog以外の新規・更新ページが対象)。

一致するURLのみをインデックス:
これらの文字列(1行につき1つ)を含むURLのみをクロールします。例:

/blog/
/articles/
/knowledge/

一致するURLのみ含める設定例

設定内容

  • タイプ: ドメインクロール
  • URL: flowhunt.io
  • 頻度: 週次
  • URLフィルタリング(インデックス対象パターン):
    /blog/
    /articles/
    /knowledge/
    
  • その他の設定: デフォルト(ブラウザレンダリング・リンク追跡・スクリーンショット・プロキシローテーションなし)
  1. クロール開始:

    • FlowHuntがflowhunt.ioのドメインクロールを開始し、ドメイン内の全てのアクセス可能なページ(例: flowhunt.io, flowhunt.io/blog, flowhunt.io/articlesなど)をターゲットとします。
  2. URLフィルタリングの適用:

    • 発見した各URLに対し、/blog/, /articles/, /knowledge/のいずれかが含まれるか照合します。
    • これらのパターンを含むURL(例: flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guideなど)のみクロール対象となります。
    • flowhunt.io/about, flowhunt.io/pricing, flowhunt.io/contactなど、指定パターンに一致しないURLはクロール対象外となります。
  3. クロール実行:

    • /blog/, /articles/, /knowledge/に一致したURLのみを処理し、AIエージェントのナレッジベース用にコンテンツをインデックス化します。
    • ブラウザレンダリング、リンク追跡、スクリーンショット、プロキシローテーションは無効なので、含めたURLのみの静的なクロールになります。
  4. 結果:

    • /blog/, /articles/, /knowledge/配下の新しいコンテンツでAIエージェントのナレッジベースが更新されます。
    • クロールは週1回実行され、これらのセクション内の新規・更新ページが手作業なしで常に最新に保たれます。

カスタムヘッダー:
クロールリクエスト用のカスタムHTTPヘッダーを追加します。HEADER=値 の形式で1行ごとに記入してください。
この機能は、特定のウェブサイト要件に合わせてクロールを調整するのに大変便利です。カスタムヘッダーを有効にすることで、認証が必要なコンテンツへのアクセス、特定のブラウザ動作の模倣、APIやサイトのアクセスルールへの準拠などが可能になります。たとえば、Authorizationヘッダーを設定すれば保護ページへアクセスでき、User-Agentをカスタムにすればボット判定を回避したり、特定のクローラーを制限するサイトでも互換性を保てます。この柔軟性により、AIエージェントのナレッジベース構築に必要なコンテンツを、サイトのセキュリティやアクセス規則を遵守しながら正確かつ包括的に収集できます。

MYHEADER=Any value
Authorization=Bearer token123
User-Agent=Custom crawler

スケジュール作成方法

  1. FlowHuntダッシュボードで「スケジュール」へ移動 スケジュールへ移動

  2. 「新しいスケジュールを追加」をクリック 新しいスケジュールを追加

  3. 基本設定を構成:

    • クロールタイプを選択(ドメイン/サイトマップ/URL/YouTube)
    • 頻度を設定(日次/週次/月次/年次)
    • 対象URLを入力
  4. 必要に応じて「詳細オプション」を展開:

    • JS依存サイト用にブラウザレンダリングを有効化
    • 総合クロール用にリンク追跡を設定
    • URLフィルタリングルールを設定
      • 必要に応じてカスタムヘッダーを追加 詳細オプションを展開
  5. **「新しいスケジュールを追加」をクリックして有効化

ベストプラクティス

一般的なウェブサイトの場合:

  • まずはサイトマップまたはドメインクロールから始める
  • 最初はデフォルト設定を使用
  • 必要に応じてのみ詳細オプションを追加

JavaScript依存サイトの場合:

  • 「ブラウザ使用」オプションを有効化
  • ビジュアルコンテンツ用にスクリーンショット取得を検討
  • ブロックされた場合はプロキシローテーションを検討

大型サイトの場合:

  • URLフィルタリングで関連コンテンツへ集中
  • 適切な頻度設定で鮮度とクレジット使用量のバランスを取る
  • 高度な機能利用時はクレジット消費量を監視

EC・動的コンテンツの場合:

  • 日次または週次頻度を利用
  • 商品ページ用にリンク追跡を有効化
  • 認証コンテンツ用にカスタムヘッダーを検討

クレジット消費について

高度な機能は追加クレジットを消費します:

  • ブラウザレンダリングは処理時間とコストが増加
  • リンク追跡はクロール対象ページ数を増加
  • スクリーンショットはビジュアル処理負荷が増加
  • プロキシローテーションはネットワーク負荷が増加

クレジット使用量を監視し、ニーズや予算に応じてスケジュールを調整しましょう。

よくあるトラブルと対処法

クロール失敗:

  • JavaScript依存サイトには「ブラウザ使用」を有効化
  • WAFによるブロックには「プロキシローテーション」を追加
  • 認証が必要な場合はカスタムヘッダーをチェック

対象ページが多すぎる/少なすぎる:

  • 不要なコンテンツは「一致するURLをスキップ」で除外
  • 「一致するURLのみインデックス」で特定セクションに集中
  • リンク追跡設定を調整

コンテンツが取得できない:

  • サイトマップに不備がある場合は「リンク追跡」を有効化
  • URLフィルタリングルールが厳しすぎないか確認
  • 対象URLがアクセス可能かどうか確認

詳細はこちら

カスタムナレッジベースを追加してAIの幻覚を減らす
カスタムナレッジベースを追加してAIの幻覚を減らす

カスタムナレッジベースを追加してAIの幻覚を減らす

FlowHuntのスケジュール機能を使ってAIの幻覚を減らし、チャットボットの回答精度を確保しましょう。利点、実践的なユースケース、導入手順を詳しく解説します。...

1 分で読める
AI Chatbot +4
スケジュール
スケジュール

スケジュール

FlowHuntのスケジュール機能では、ドメインやYouTubeチャンネルを定期的にクロールし、チャットボットやフローを常に最新情報で保つことができます。クロールの種類や頻度をカスタマイズして自動化し、AIによるやり取りが常に正確かつ関連性のあるものになるようにしましょう。...

1 分で読める
AI Schedules +4
フロー
フロー

フロー

フローはFlowHuntの頭脳です。ノーコードのビジュアルビルダーで、最初のコンポーネントの配置からWebサイトへの統合、チャットボットの展開、テンプレートの活用まで、フローの作り方を学びましょう。...

1 分で読める
AI No-Code +4