コンポーネントの説明
ドキュメントからテキストへコンポーネントの仕組み
AIは大量のデータを数秒で解析できますが、出力に適したデータは一部のみです。「ドキュメントからテキスト」コンポーネントは、リトリーバーから取得されたデータの処理方法やテキストへの変換方法をコントロールできます。
ドキュメントからテキストコンポーネントは、入力された知識ドキュメントをプレーンテキスト形式へ変換するために設計されています。これは、テキストデータがさらなる処理や分析、あるいは言語モデルへの入力として必要となるAI・データ処理ワークフローで特に有用です。
コンポーネントの機能
このコンポーネントは、1つまたは複数の構造化ドキュメント(HTML、Markdown、PDFなどのサポート形式)からテキストコンテンツを抽出します。どの部分をエクスポートするか、メタデータを含めるか、セクションやヘッダーの扱い方などを細かく指定できます。出力は抽出されたテキストを含む統一メッセージオブジェクトとなり、要約、分類、質問応答などの後続タスクにすぐ利用可能です。
入力項目
このコンポーネントは、いくつかの設定可能な入力を受け付けます。
| 入力名 | 型 | 必須 | 説明 | デフォルト値 |
|---|---|---|---|---|
| ドキュメント | List[Document] | はい | テキストへ変換する知識ドキュメント | N/A(ユーザー入力) |
| H1から抽出(存在すれば) | Boolean | はい | 最初のH1ヘッダーが存在する場合、そこから抽出を開始 | true |
| ポインターから読み込む | Boolean | はい | 入力クエリに最も合致するポインターから抽出開始、該当なければ全て読み込み | true |
| 最大トークン数 | Integer | いいえ | 出力テキストの最大トークン数 | 3000 |
| 最後のヘッダーをスキップ | Boolean | はい | 出力最適化のため、最後のヘッダー(多くはフッター)をスキップ | false |
| 抽出戦略 | String | はい | テキスト抽出戦略:ドキュメントを連結するか、各ドキュメントから均等に含める | “各ドキュメントから均等に含める” |
| エクスポート内容 | マルチセレクト | いいえ | どのコンテンツタイプを含めるか(例:H1、H2、段落など) | 全タイプ選択済み |
| メタデータを含める | マルチセレクト | いいえ | 利用可能な場合、出力に含めるメタデータフィールド | Product |
利用可能なコンテンツタイプ: H1, H2, H3, H4, H5, H6, 段落
メタデータオプション: 著者、Product、BreadcrumbList、VideoObject、BlogPosting、FAQPage、WebSite、opengraph
出力
このコンポーネントは以下の出力を生成します。
- メッセージ:変換されたテキストと含まれるメタデータを格納したメッセージオブジェクト
主な特徴と有用性
- 柔軟なコンテンツ抽出:どの部分を抽出するかを細かく指定可能(例:主要ヘッダーと段落のみ、または全ての内容)
- メタデータの付加:希望に応じて著者、製品、構造化データなどリッチなメタデータも追加可能。下流での文脈付加に有用
- トークン制限管理:最大トークン数を設定し、下流モデル要件に合わせて出力サイズを調整
- 抽出戦略のカスタマイズ:
- ドキュメントを連結し、最初からトークン上限まで埋める:最初のドキュメントから順に優先して出力を埋める
- 各ドキュメントから均等に含める:複数ドキュメントから均等に内容を抽出し、トークン制限内でバランスを取る
- スマートなセクション処理:フッターをスキップしたり、クエリに最も関連するセクションから抽出を開始するなど、より関連性の高いテキスト抽出が可能
主なユースケース
- AIモデル用ナレッジベースの前処理(例:埋め込みやインデックス作成前)
- 大規模ドキュメントの要約・圧縮(関連部分のみ抽出)
- チャットボットや検索エンジン等NLPパイプラインへの構造化コンテンツ投入
- テキストとメタデータを組み合わせたハイブリッド検索システムの構築
機能一覧表
| 機能 | 説明 |
|---|---|
| 入力タイプ | ドキュメントのリスト |
| 出力タイプ | メッセージ(テキスト+メタデータ) |
| 内容の粒度 | 含めるヘッダーや段落を選択可能 |
| メタデータオプション | 複数のメタデータフィールドを選択してエクスポート |
| 出力サイズ調整 | 最大トークン数を設定 |
| 抽出戦略 | ドキュメント連結またはバランス抽出 |
| セクション選択 | H1から開始、ポインターから開始、最後のヘッダーをスキップ |
戦略について
Botはテキスト出力を作成するために多数のドキュメントをクロールする場合があります。戦略設定により、複数ドキュメントをトークン制限内でどのように活用するかをコントロールできます。
現在、選択できる戦略は2つです:
- 各ドキュメントから均等に含める:見つかった全てのドキュメントを均等に利用
- ドキュメントを連結し、最初からトークン上限まで埋める:ドキュメントを関連度順に連結
Document to Textコンポーネントをフローに接続する方法
このコンポーネントは「トランスフォーマー」型で、2つの出力間を橋渡しします。Document to Textは、リトリーバーコンポーネントの出力(Documents)を受け取ります。
- ドキュメントリトリーバー – 接続されたナレッジソース(ページ、ドキュメント等)から知識を取得
- URLリトリーバー – ボットが知識を取得すべきURLを指定
- GoogleSearch – ボットにウェブ検索能力を付与
取得した知識は、トランスフォーマーを通して読みやすいMarkdownテキストに変換されます。このテキストは、分割、ウィジェット、各種出力など、テキスト入力を必要とする他のコンポーネントに接続できます。
以下は、Document to Textコンポーネントを使用し、ドキュメントリトリーバーとAIジェネレーター間を橋渡しする例です。

よくある質問
- ドキュメントからテキストへのコンポーネントとは何ですか?
このコンポーネントは、リトリーバータイプのコンポーネントから知識を取得し、それを読みやすいMarkdownテキストに変換します。変換されたテキストは、テキスト入力を受け付けるあらゆるコンポーネントに接続できます。
