"ドキュメントからテキストへのコンポーネントとは何ですか？"

"このコンポーネントは、リトリーバータイプのコンポーネントから知識を取得し、それを読みやすいMarkdownテキストに変換します。変換されたテキストは、テキスト入力を受け付けるあらゆるコンポーネントに接続できます。"

ドキュメントからテキストへ

FlowHuntの「ドキュメントからテキスト」コンポーネントで構造化データを読みやすいMarkdownテキストに変換。効率的かつ関連性の高いAI出力のためのカスタマイズ可能なコントロールを提供します。

AI Data Processing Markdown Components

コンポーネントの説明

ドキュメントからテキストへコンポーネントの仕組み

AIは大量のデータを数秒で解析できますが、出力に適したデータは一部のみです。「ドキュメントからテキスト」コンポーネントは、リトリーバーから取得されたデータの処理方法やテキストへの変換方法をコントロールできます。

ドキュメントからテキストコンポーネントは、入力された知識ドキュメントをプレーンテキスト形式へ変換するために設計されています。これは、テキストデータがさらなる処理や分析、あるいは言語モデルへの入力として必要となるAI・データ処理ワークフローで特に有用です。

コンポーネントの機能

このコンポーネントは、1つまたは複数の構造化ドキュメント（HTML、Markdown、PDFなどのサポート形式）からテキストコンテンツを抽出します。どの部分をエクスポートするか、メタデータを含めるか、セクションやヘッダーの扱い方などを細かく指定できます。出力は抽出されたテキストを含む統一メッセージオブジェクトとなり、要約、分類、質問応答などの後続タスクにすぐ利用可能です。

入力項目

このコンポーネントは、いくつかの設定可能な入力を受け付けます。

入力名	型	必須	説明	デフォルト値
ドキュメント	List[Document]	はい	テキストへ変換する知識ドキュメント	N/A（ユーザー入力）
H1から抽出（存在すれば）	Boolean	はい	最初のH1ヘッダーが存在する場合、そこから抽出を開始	true
ポインターから読み込む	Boolean	はい	入力クエリに最も合致するポインターから抽出開始、該当なければ全て読み込み	true
最大トークン数	Integer	いいえ	出力テキストの最大トークン数	3000
最後のヘッダーをスキップ	Boolean	はい	出力最適化のため、最後のヘッダー（多くはフッター）をスキップ	false
抽出戦略	String	はい	テキスト抽出戦略：ドキュメントを連結するか、各ドキュメントから均等に含める	“各ドキュメントから均等に含める”
エクスポート内容	マルチセレクト	いいえ	どのコンテンツタイプを含めるか（例：H1、H2、段落など）	全タイプ選択済み
メタデータを含める	マルチセレクト	いいえ	利用可能な場合、出力に含めるメタデータフィールド	Product

利用可能なコンテンツタイプ： H1, H2, H3, H4, H5, H6, 段落
メタデータオプション： 著者、Product、BreadcrumbList、VideoObject、BlogPosting、FAQPage、WebSite、opengraph

出力

このコンポーネントは以下の出力を生成します。

メッセージ：変換されたテキストと含まれるメタデータを格納したメッセージオブジェクト

主な特徴と有用性

柔軟なコンテンツ抽出：どの部分を抽出するかを細かく指定可能（例：主要ヘッダーと段落のみ、または全ての内容）
メタデータの付加：希望に応じて著者、製品、構造化データなどリッチなメタデータも追加可能。下流での文脈付加に有用
トークン制限管理：最大トークン数を設定し、下流モデル要件に合わせて出力サイズを調整
抽出戦略のカスタマイズ：
- ドキュメントを連結し、最初からトークン上限まで埋める：最初のドキュメントから順に優先して出力を埋める
- 各ドキュメントから均等に含める：複数ドキュメントから均等に内容を抽出し、トークン制限内でバランスを取る
スマートなセクション処理：フッターをスキップしたり、クエリに最も関連するセクションから抽出を開始するなど、より関連性の高いテキスト抽出が可能

主なユースケース

AIモデル用ナレッジベースの前処理（例：埋め込みやインデックス作成前）
大規模ドキュメントの要約・圧縮（関連部分のみ抽出）
チャットボットや検索エンジン等NLPパイプラインへの構造化コンテンツ投入
テキストとメタデータを組み合わせたハイブリッド検索システムの構築

機能一覧表

機能	説明
入力タイプ	ドキュメントのリスト
出力タイプ	メッセージ（テキスト＋メタデータ）
内容の粒度	含めるヘッダーや段落を選択可能
メタデータオプション	複数のメタデータフィールドを選択してエクスポート
出力サイズ調整	最大トークン数を設定
抽出戦略	ドキュメント連結またはバランス抽出
セクション選択	H1から開始、ポインターから開始、最後のヘッダーをスキップ