Document Retrieverの設定方法

‘From H1 if exists’、‘Load from pointer’、‘Skip Last Header’ パラメータの設定方法をご紹介します。

Document Retriever AI knowledge base Knowledge Sources Components

Document Retrieverコンポーネントは、チャットボットが「ドキュメント」や「スケジュール」で指定したソースから知識を取得できるようにします。このコンポーネントの役割は情報の取得を制御することであり、取得方法に影響する複数のパラメータがあります。

From H1 if exists – メインタイトルから抽出を開始

From H1 if exists オプションは、リトリーバーにH1ヘッダー（通常は記事のメインタイトル）からコンテンツの抽出を始めるよう指示します。

どうなるのか？

チェックあり：最初のH1前のナビゲーションやパンくずリスト、ログインリンクなどは無視され、抽出はメイン記事内容から開始。
チェックなし：ページ最上部から抽出が始まり、ナビゲーションやヘッダー、記事上部のメタデータも含まれます。

利用例：
サイトのナビゲーションやページヘッダーなどの不要な要素を除き、実際のガイドのみを取得したい場合。

注意：
From H1 if existsはDocument Retrieverコンポーネントでデフォルト有効です。

Load from pointer – 特定のマーカーから抽出を開始

Load from pointer オプションは、長い記事の中から特定のポインター以降のみを取得するなど、より精密な制御を可能にします。

どうなるのか？

チェックあり（ポインター設定時）：指定したポインター以降から抽出が始まり、それ以前（たとえH1の後でも）はスキップされます。
チェックなし：デフォルト位置（ドキュメントの先頭、または「From H1 if exists」有効時は最初のH1）から抽出。

「ポインター」とは？
ポインターとは、ドキュメント内に存在する一意な文字列や見出し（例：H2や特定のフレーズ、セクションタイトル）です。

利用例：
導入部分を飛ばして、長い記事やドキュメントの中の特定セクション（例：「ステップ4：ライブチャットボタンを追加」）から情報を取得したい場合。

Skip Last Header – フッターや重複ヘッダーの除外

Skip Last Header オプションは、ドキュメント末尾のヘッダーを無視したい場合に有用です。これらはナビゲーションやフッターのために繰り返し使われることが多いです。

どうなるのか？

チェックあり：最後のヘッダー（例：記事タイトルの繰り返しや「他の記事」セクションなど）は抽出時に無視されます。
チェックなし：最後のヘッダーも含め、全ヘッダーが出力に含まれます。

利用例：
ヘルプページ末尾の「他の記事」など、フッターナビゲーションヘッダーを除外し、メインコンテンツのみを処理したい場合。

注意：
Skip Last Headerは、フッターや繰り返しナビゲーション要素が自動生成されるドキュメントに有効です。ただし、そのようなセクションがない場合、このパラメータを有効にすると有用な情報部分が取得されなくなる場合があるため、正当な理由がない限りオフのままにしておくことを推奨します。

Max tokens – 最大出力長の制御

Max tokens パラメータは、Document Retrieverが抽出テキストから出力する最大トークン数（単語や句読点など、AIモデルによってカウントされる単位）を制御できます。

どうなるのか？

抽出された内容は指定したトークン数に制限され、それを超える部分は切り捨てられます。
このパラメータで非常に長いドキュメントの出力量を管理し、AIモデルの処理上限に収めることができます。

デフォルト値：
通常は3,000トークンですが、必要に応じて調整可能です。

利用例：
長いドキュメントを処理する場合、Max tokens値を低く設定すると、回答を簡潔に保てます。ただし、最良の結果には「Load from pointer」パラメータの併用をおすすめします。これにより、抽出テキストがドキュメント内の最も関連性の高いセクションから始まり、指定トークン内で集中的かつ管理しやすい情報を取得できます。特に大規模ソースから簡潔で文脈に沿った出力が欲しい際に有効です。

注意：
情報が途中で切れてしまう場合は、Max tokens値を増やしてください。逆に、短く焦点を絞った出力が必要な場合は、Max tokens値を減らしましょう。

Strategy – 複数ドキュメントのテキスト変換方法の制御

Document Retrieverが複数の関連ドキュメントを見つけた場合、Strategyパラメータが「Max tokens」制限を考慮しつつ、それらをどのように一つのテキスト出力へまとめるかを決定します。

2つの戦略オプション：

各ドキュメントから均等サイズを含める：
トークン上限を均等に分配します。例えば、3つのドキュメントと3,000トークン上限の場合、各ドキュメントに最大1,000トークンずつ割り当てます。すべてのソースを均等に反映したい場合に有効です。
- 利用場面：
  テーマごとに複数のドキュメントに情報が分散しており、包括的な回答には複数ソースから均等に引き出す必要がある場合。どのドキュメントにも全情報が載っていないが、全ての関連ドキュメントの情報をバランスよく反映させたい場合に最適です。
ドキュメントを連結し、最初からトークン上限まで詰める：
関連性の高い順にドキュメントを追加し、トークン上限に達するまで埋めます。最も関連性の高いドキュメントが最初に埋められ、余裕があれば次に関連性の高いものが追加されます。最初のドキュメントが長い場合、それだけで上限を使い切ることもあります。
- 利用場面：
  各テーマの詳細情報が1つのドキュメントにまとまっている場合や、複数ドキュメントを混在させるよりも、1つのドキュメントからできるだけ多く取り出したい場合に有効です。

選び方のポイント：

すべてのソースを均等に反映したい場合は「各ドキュメントから均等サイズを含める」を選択してください。
最も関連性の高いドキュメントを優先したい、すべてのソースを含める必要がない場合は「ドキュメントを連結し、最初からトークン上限まで詰める」を選択してください。

注意：
これらの戦略は、取得されたドキュメントからテキストをどのように構成するか（AI生成などの次のステップへ渡す直前）にのみ影響します。どのドキュメントが取得されるかには影響せず、あくまで取得済みドキュメントの内容を「Max tokens」設定内でまとめたりカットしたりする方法です。

Document Retrieverのその他のパラメータ

この記事では「From H1 if exists」「Load from pointer」「Skip Last Header」「Max tokens」各パラメータの設定に焦点を当てましたが、Document Retrieverにはほかにもドキュメントの選択・取得方法を制御するための追加パラメータがあります。

Document Count

取得するドキュメント数の上限を設定でき、結果の関連性を維持しつつ、迅速な応答が可能です。

Document Categories

オプション設定で、「ナレッジソース」内のドキュメントセクションで作成したカテゴリのうち、1つまたは複数に絞って取得できます。

Hide Resources

取得されたリソースのリストを、実際のチャットボット回答の前に別セクションとして含めるか、非表示にできます。LiveAgent連携の場合はチェック必須です（このセクションはサポートされず、LiveAgentチャットボットウィジェットで正しく表示されません）。

Schedules

「ナレッジソース」でクロールまたは更新用に指定した1つまたは複数のスケジュールに取得を限定できます。

Threshold

取得するドキュメントが入力クエリとどれだけ近いかを、関連度スコア（0～1）で制御します。例えば、0.7～0.8のスレッショルドが高い関連性の回答に推奨されます。値が高いほど厳密な一致、低いほど関連性の低いドキュメントも含まれる場合があります。

例：
スレッショルドを0.6に設定し、4つの記事がそれぞれ0.8、0.65、0.5、0.9の関連度スコアを持つ場合、0.6を超える（0.8、0.65、0.9）の記事のみが抽出対象となります。

トラブルシューティング

チャットボットの回答に、ドキュメントやスケジュール内に確実に存在するはずの情報が含まれていない場合、「Verbose」オプションで会話履歴をチェックし、Document Retrieverが利用されたか・どのドキュメントが取得されたかの詳細ログを確認してください。必要に応じて、これらのログを元に設定やプロンプトを調整しましょう。