ドキュメントからテキストへ

ドキュメントからテキストへ

FlowHuntの「ドキュメントからテキスト」コンポーネントで構造化データを読みやすいMarkdownテキストに変換。効率的かつ関連性の高いAI出力のためのカスタマイズ可能なコントロールを提供します。

コンポーネントの説明

ドキュメントからテキストへコンポーネントの仕組み

AIは大量のデータを数秒で解析できますが、出力に適したデータは一部のみです。「ドキュメントからテキスト」コンポーネントは、リトリーバーから取得されたデータの処理方法やテキストへの変換方法をコントロールできます。

ドキュメントからテキストコンポーネントは、入力された知識ドキュメントをプレーンテキスト形式へ変換するために設計されています。これは、テキストデータがさらなる処理や分析、あるいは言語モデルへの入力として必要となるAI・データ処理ワークフローで特に有用です。

コンポーネントの機能

このコンポーネントは、1つまたは複数の構造化ドキュメント(HTML、Markdown、PDFなどのサポート形式)からテキストコンテンツを抽出します。どの部分をエクスポートするか、メタデータを含めるか、セクションやヘッダーの扱い方などを細かく指定できます。出力は抽出されたテキストを含む統一メッセージオブジェクトとなり、要約、分類、質問応答などの後続タスクにすぐ利用可能です。

入力項目

このコンポーネントは、いくつかの設定可能な入力を受け付けます。

入力名必須説明デフォルト値
ドキュメントList[Document]はいテキストへ変換する知識ドキュメントN/A(ユーザー入力)
H1から抽出(存在すれば)Booleanはい最初のH1ヘッダーが存在する場合、そこから抽出を開始true
ポインターから読み込むBooleanはい入力クエリに最も合致するポインターから抽出開始、該当なければ全て読み込みtrue
最大トークン数Integerいいえ出力テキストの最大トークン数3000
最後のヘッダーをスキップBooleanはい出力最適化のため、最後のヘッダー(多くはフッター)をスキップfalse
抽出戦略Stringはいテキスト抽出戦略:ドキュメントを連結するか、各ドキュメントから均等に含める“各ドキュメントから均等に含める”
エクスポート内容マルチセレクトいいえどのコンテンツタイプを含めるか(例:H1、H2、段落など)全タイプ選択済み
メタデータを含めるマルチセレクトいいえ利用可能な場合、出力に含めるメタデータフィールドProduct

利用可能なコンテンツタイプ: H1, H2, H3, H4, H5, H6, 段落
メタデータオプション: 著者、Product、BreadcrumbList、VideoObject、BlogPosting、FAQPage、WebSite、opengraph

出力

このコンポーネントは以下の出力を生成します。

  • メッセージ:変換されたテキストと含まれるメタデータを格納したメッセージオブジェクト

主な特徴と有用性

  • 柔軟なコンテンツ抽出:どの部分を抽出するかを細かく指定可能(例:主要ヘッダーと段落のみ、または全ての内容)
  • メタデータの付加:希望に応じて著者、製品、構造化データなどリッチなメタデータも追加可能。下流での文脈付加に有用
  • トークン制限管理:最大トークン数を設定し、下流モデル要件に合わせて出力サイズを調整
  • 抽出戦略のカスタマイズ
    • ドキュメントを連結し、最初からトークン上限まで埋める:最初のドキュメントから順に優先して出力を埋める
    • 各ドキュメントから均等に含める:複数ドキュメントから均等に内容を抽出し、トークン制限内でバランスを取る
  • スマートなセクション処理:フッターをスキップしたり、クエリに最も関連するセクションから抽出を開始するなど、より関連性の高いテキスト抽出が可能

主なユースケース

  • AIモデル用ナレッジベースの前処理(例:埋め込みやインデックス作成前)
  • 大規模ドキュメントの要約・圧縮(関連部分のみ抽出)
  • チャットボットや検索エンジン等NLPパイプラインへの構造化コンテンツ投入
  • テキストとメタデータを組み合わせたハイブリッド検索システムの構築

機能一覧表

機能説明
入力タイプドキュメントのリスト
出力タイプメッセージ(テキスト+メタデータ)
内容の粒度含めるヘッダーや段落を選択可能
メタデータオプション複数のメタデータフィールドを選択してエクスポート
出力サイズ調整最大トークン数を設定
抽出戦略ドキュメント連結またはバランス抽出
セクション選択H1から開始、ポインターから開始、最後のヘッダーをスキップ

戦略について

Botはテキスト出力を作成するために多数のドキュメントをクロールする場合があります。戦略設定により、複数ドキュメントをトークン制限内でどのように活用するかをコントロールできます。

現在、選択できる戦略は2つです:

  • 各ドキュメントから均等に含める:見つかった全てのドキュメントを均等に利用
  • ドキュメントを連結し、最初からトークン上限まで埋める:ドキュメントを関連度順に連結

Document to Textコンポーネントをフローに接続する方法

このコンポーネントは「トランスフォーマー」型で、2つの出力間を橋渡しします。Document to Textは、リトリーバーコンポーネントの出力(Documents)を受け取ります。

  • ドキュメントリトリーバー – 接続されたナレッジソース(ページ、ドキュメント等)から知識を取得
  • URLリトリーバー – ボットが知識を取得すべきURLを指定
  • GoogleSearch – ボットにウェブ検索能力を付与

取得した知識は、トランスフォーマーを通して読みやすいMarkdownテキストに変換されます。このテキストは、分割、ウィジェット、各種出力など、テキスト入力を必要とする他のコンポーネントに接続できます。

以下は、Document to Textコンポーネントを使用し、ドキュメントリトリーバーとAIジェネレーター間を橋渡しする例です。

Example of how to use Document Retriever in Flowhunt

よくある質問

ドキュメントからテキストへのコンポーネントとは何ですか?

このコンポーネントは、リトリーバータイプのコンポーネントから知識を取得し、それを読みやすいMarkdownテキストに変換します。変換されたテキストは、テキスト入力を受け付けるあらゆるコンポーネントに接続できます。

FlowHuntでドキュメントからテキストを試す

FlowHuntの「ドキュメントからテキスト」コンポーネントで、よりスマートなAIソリューションを構築しましょう。データをシームレスに実用的なテキストへ変換し、自動化ワークフローを強化します。

詳細はこちら

ファイルへのエクスポート
ファイルへのエクスポート

ファイルへのエクスポート

FlowHuntの「ファイルへのエクスポート」コンポーネントを使えば、ワークフロー中に生成されたテキストやデータを、TXT、PDF、CSVなど様々な形式のダウンロード可能なファイルとして保存できます。AIワークフローの一部としてファイル作成を簡単に自動化できます。...

1 分で読める
Automation File Export +3
ナレッジソースウィジェット
ナレッジソースウィジェット

ナレッジソースウィジェット

ナレッジソースウィジェットを使用して、チャットボットの応答内に関連するドキュメントを直接表示しましょう。このコンポーネントは選択したナレッジドキュメントを視覚的に区別されたウィジェットとして表示し、ユーザーが会話中にサポート情報へ簡単にアクセス・確認できるようにします。...

1 分で読める
AI Knowledge +4
データ解析
データ解析

データ解析

Parse Dataコンポーネントは、構造化データをカスタマイズ可能なテンプレートでプレーンテキストに変換します。ワークフロー内でさらに利用するための柔軟なフォーマットや変換を可能にし、情報の標準化や後続コンポーネントへの準備を支援します。...

1 分で読める
Data Processing Automation +3