ウェブサイトの自動クロールをスケジューリングする方法

ウェブサイト、サイトマップ、ドメイン、YouTubeチャンネルの自動クロールスケジュールを設定し、AIエージェントのナレッジベースを常に最新に保つ方法をご紹介します。

Schedules Crawling AI Agent Knowledge Base

FlowHuntのスケジュール機能を使えば、ウェブサイト、サイトマップ、ドメイン、YouTubeチャンネルのクロールとインデックス化を自動化できます。これにより、AIエージェントのナレッジベースは手動での作業なしでも常に最新のコンテンツで保たれます。

スケジューリングの仕組み

自動クロール:
日次・週次・月次・年次の定期クロールを設定し、ナレッジベースを常に最新に保てます。
複数のクロールタイプ:
コンテンツソースに応じて、ドメインクロール、サイトマップクロール、URLクロール、YouTubeチャンネルクロールから選択できます。
高度なオプション:
ブラウザレンダリング、リンク追跡、スクリーンショット、プロキシローテーション、URLフィルタリングなどの設定が可能です。

スケジュール設定オプション

基本設定

タイプ: クロール方法を選択します。

ドメインクロール: ドメイン全体を体系的にクロール
サイトマップクロール: ウェブサイトのsitemap.xmlを使って効率的にクロール
URLクロール: 特定のURLやページをターゲット
YouTubeチャンネルクロール: YouTubeチャンネルの動画コンテンツをインデックス化

頻度: クロールを実行する間隔を設定します。

日次、週次、月次、年次

URL: クロール対象となるURL、ドメイン、またはYouTubeチャンネルを入力

高度なクロールオプション

ブラウザ使用（追加クレジット消費）:
JavaScriptを多用したサイトなど、フルブラウザレンダリングが必要な場合に有効化します。処理は遅く高コストですが、動的なコンテンツの取得に必須です。

リンク追跡（追加クレジット消費）:
ページ内で発見された追加URLもクロールします。サイトマップに全URLが含まれていない場合に便利ですが、発見リンクを巡回するため大量のクレジットを消費します。

スクリーンショット取得（追加クレジット消費）:
クロール時にビジュアルスクリーンショットを取得します。og:imageがないサイトやAI処理時にビジュアルコンテキストが必要な場合に有効です。

プロキシローテーション使用（追加クレジット消費）:
各リクエストでIPアドレスを変更し、WAFやボット対策を回避します。

URLフィルタリング

一致するURLをスキップ:
これらの文字列（1行につき1つ）を含むURLをクロール対象から除外します。例:

/admin/
/login
.pdf

例：flowhunt.ioのクロールで /blog をスキップする場合

この例では、FlowHuntのスケジュール機能でflowhunt.ioドメインをクロールし、URLフィルタリング設定の「一致するURLをスキップ」に/blogを指定した場合の動作を説明します。

設定内容

タイプ: ドメインクロール
URL: flowhunt.io
頻度: 週次
URLフィルタリング（スキップパターン）: /blog
その他の設定: デフォルト（ブラウザレンダリング・リンク追跡・スクリーンショット・プロキシローテーションなし）

動作の流れ

クロール開始:
- FlowHuntがflowhunt.ioのドメインクロールを開始し、ドメイン内の全てのアクセス可能なページ（例: flowhunt.io, flowhunt.io/features, flowhunt.io/pricingなど）をターゲットとします。
URLフィルタリングの適用:
- 発見した各URLに対し、スキップパターン/blogと照合します。
- /blogを含むすべてのURL（例: flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/categoryなど）はクロール対象外となります。
- 一方、flowhunt.io/about, flowhunt.io/contact, flowhunt.io/docsなど他のURLは/blogに一致しないためクロールされます。
クロール実行:
- クロール対象となるURLのみを体系的に処理し、AIエージェントのナレッジベース用にコンテンツをインデックス化します。
- ブラウザレンダリング、リンク追跡、スクリーンショット、プロキシローテーションは無効なので、静的なコンテンツのみの軽量なクロールになります。
結果:
- /blog配下を除くflowhunt.ioの新しいコンテンツでAIエージェントのナレッジベースが更新されます。
- クロールは週1回実行され、手作業なしで最新状態が保たれます（/blog以外の新規・更新ページが対象）。

一致するURLのみをインデックス:
これらの文字列（1行につき1つ）を含むURLのみをクロールします。例:

/blog/
/articles/
/knowledge/

一致するURLのみ含める設定例

設定内容

タイプ: ドメインクロール
URL: flowhunt.io
頻度: 週次
URLフィルタリング（インデックス対象パターン）:
```
/blog/
/articles/
/knowledge/
```
その他の設定: デフォルト（ブラウザレンダリング・リンク追跡・スクリーンショット・プロキシローテーションなし）

クロール開始:
- FlowHuntがflowhunt.ioのドメインクロールを開始し、ドメイン内の全てのアクセス可能なページ（例: flowhunt.io, flowhunt.io/blog, flowhunt.io/articlesなど）をターゲットとします。
URLフィルタリングの適用:
- 発見した各URLに対し、/blog/, /articles/, /knowledge/のいずれかが含まれるか照合します。
- これらのパターンを含むURL（例: flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guideなど）のみクロール対象となります。
- flowhunt.io/about, flowhunt.io/pricing, flowhunt.io/contactなど、指定パターンに一致しないURLはクロール対象外となります。
クロール実行:
- /blog/, /articles/, /knowledge/に一致したURLのみを処理し、AIエージェントのナレッジベース用にコンテンツをインデックス化します。
- ブラウザレンダリング、リンク追跡、スクリーンショット、プロキシローテーションは無効なので、含めたURLのみの静的なクロールになります。
結果:
- /blog/, /articles/, /knowledge/配下の新しいコンテンツでAIエージェントのナレッジベースが更新されます。
- クロールは週1回実行され、これらのセクション内の新規・更新ページが手作業なしで常に最新に保たれます。

カスタムヘッダー:
クロールリクエスト用のカスタムHTTPヘッダーを追加します。HEADER=値 の形式で1行ごとに記入してください。
この機能は、特定のウェブサイト要件に合わせてクロールを調整するのに大変便利です。カスタムヘッダーを有効にすることで、認証が必要なコンテンツへのアクセス、特定のブラウザ動作の模倣、APIやサイトのアクセスルールへの準拠などが可能になります。たとえば、Authorizationヘッダーを設定すれば保護ページへアクセスでき、User-Agentをカスタムにすればボット判定を回避したり、特定のクローラーを制限するサイトでも互換性を保てます。この柔軟性により、AIエージェントのナレッジベース構築に必要なコンテンツを、サイトのセキュリティやアクセス規則を遵守しながら正確かつ包括的に収集できます。

MYHEADER=Any value
Authorization=Bearer token123
User-Agent=Custom crawler

スケジュール作成方法

FlowHuntダッシュボードで「スケジュール」へ移動
「新しいスケジュールを追加」をクリック
基本設定を構成:
- クロールタイプを選択（ドメイン/サイトマップ/URL/YouTube）
- 頻度を設定（日次/週次/月次/年次）
- 対象URLを入力
必要に応じて「詳細オプション」を展開:
- JS依存サイト用にブラウザレンダリングを有効化
- 総合クロール用にリンク追跡を設定
- URLフィルタリングルールを設定
  - 必要に応じてカスタムヘッダーを追加
**「新しいスケジュールを追加」をクリックして有効化