Document vers Texte

Transformez des données structurées en texte markdown lisible avec le composant Document vers Texte de FlowHunt, offrant des contrôles personnalisables pour une sortie efficace et pertinente alimentée par l’IA.

Document vers Texte

Description du composant

Comment fonctionne le composant Document vers Texte

L’IA peut analyser de grandes quantités de données en quelques secondes, mais seules certaines de ces données seront pertinentes ou adaptées à la sortie. Le composant Document vers Texte vous donne le contrôle sur la façon dont les données issues des récupérateurs sont traitées et transformées en texte.

Composant Document vers Texte

Le composant Document vers Texte est conçu pour transformer les documents de connaissances d’entrée en format texte brut. Cela est particulièrement utile dans les flux de traitement de données et d’IA où des données textuelles sont nécessaires pour un traitement ultérieur, une analyse ou comme entrée pour des modèles de langage.

Ce que fait le composant

Ce composant prend un ou plusieurs documents structurés (tels que HTML, Markdown, PDF ou autres formats pris en charge) et extrait le contenu textuel. Il vous permet de spécifier précisément quelles parties des documents exporter, s’il faut inclure les métadonnées, et comment gérer les sections ou en-têtes du document. La sortie est un objet message unifié contenant le texte extrait, prêt pour des tâches en aval comme la synthèse, la classification ou la réponse à des questions.

Entrées

Le composant accepte plusieurs entrées configurables :

Nom de l’entréeTypeRequisDescriptionValeur par défaut
DocumentsListe[Document]OuiLes documents de connaissances à transformer en texte.N/A (fourni par l’utilisateur)
Depuis H1 si existeBooléenOuiCommencer l’extraction à partir du premier en-tête H1 si présent.true
Charger depuis pointeurBooléenOuiCommencer l’extraction depuis le pointeur correspondant le mieux à la requête, ou tout charger si non trouvé.true
Max TokensEntierNonNombre maximal de tokens dans le texte de sortie.3000
Sauter le dernier en-têteBooléenOuiSauter le dernier en-tête (souvent un pied de page) pour optimiser la sortie.false
StratégieChaîneOuiStratégie d’extraction du texte : concaténer les documents ou inclure une taille égale de chacun.“Inclure une taille égale de chaque document”
Exporter contenuMulti-sélectionNonTypes de contenu à inclure (ex : H1, H2, Paragraphe).Tous les types sélectionnés
Inclure métadonnéesMulti-sélectionNonChamps de métadonnées à inclure dans la sortie si disponibles.Produit

Types de contenu disponibles : H1, H2, H3, H4, H5, H6, Paragraphe
Options de métadonnées : Auteur, Produit, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Sorties

Le composant produit la sortie suivante :

  • Message : Un objet message contenant le texte transformé et toute métadonnée incluse.

Fonctionnalités clés & Utilité

  • Extraction de contenu flexible : Contrôlez précisément quelles parties de vos documents sont extraites (ex : seulement les en-têtes principaux et les paragraphes, ou tout le contenu).
  • Inclusion des métadonnées : Incluez si besoin des métadonnées enrichies (ex : auteur, produit ou données structurées) dans la sortie, utile pour la contextualisation en aval.
  • Gestion de la limite de tokens : Limitez la taille de la sortie pour répondre aux exigences des modèles en aval en définissant un nombre maximal de tokens.
  • Stratégie d’extraction personnalisée :
    • Concaténer les documents, remplir en partant du premier jusqu’à la limite de tokens : Priorise le remplissage séquentiel à partir du premier document.
    • Inclure une taille égale de chaque document : Équilibre le contenu de plusieurs documents dans la limite de tokens.
  • Gestion intelligente des sections : Options pour ignorer les pieds de page ou commencer depuis la section la plus pertinente par rapport à votre requête, augmentant la pertinence du texte extrait.

Cas d’utilisation typiques

  • Prétraitement des bases de connaissances pour les modèles IA (ex : avant l’intégration ou l’indexation).
  • Résumé ou condensation de grands documents en extrayant uniquement les sections pertinentes.
  • Alimentation de contenu structuré dans des chatbots, moteurs de recherche ou autres pipelines de traitement du langage naturel.
  • Construction de systèmes de recherche hybrides combinant texte et métadonnées pour un contexte enrichi.

Tableau récapitulatif

FonctionnalitéDescription
Types d’entréeListe de documents
Type de sortieMessage (Texte + Métadonnées)
Granularité du contenuSélectionner les en-têtes/paragraphe à inclure
Options de métadonnéesSélectionner plusieurs champs de métadonnées à exporter
Contrôle de la taille de sortieDéfinir le nombre maximal de tokens
Stratégies d’extractionConcaténer ou équilibrer entre les documents
Sélection de sectionCommencer depuis H1, depuis un pointeur, ou ignorer le dernier en-tête

Stratégie

Le bot peut explorer de nombreux documents pour créer la sortie texte. Le réglage Stratégie vous permet de contrôler comment il utilise intelligemment ces documents tout en respectant la limite de tokens.

Actuellement, il existe deux stratégies possibles :

  • Inclure une taille égale de chaque document : Utilise tous les documents trouvés de manière équitable.
  • Concaténer les documents, remplir en partant du premier jusqu’à la limite de tokens : Relie les documents en les priorisant par pertinence pour la requête.

Comment connecter le composant Document vers Texte à votre flux

C’est un composant transformateur, ce qui signifie qu’il fait le lien entre deux sorties. Document vers Texte prend les Documents issus des composants Récupérateurs :

  • Récupérateur de documents – récupère les connaissances à partir de sources connectées (pages, documents, etc.).
  • Récupérateur d’URL – vous permet de spécifier une URL à partir de laquelle le bot doit extraire les connaissances.
  • GoogleSearch – donne au bot la capacité de rechercher des connaissances sur le web.

Les connaissances sont converties en texte Markdown lisible lorsqu’elles passent par le transformateur. Ce texte peut ensuite être connecté à des composants nécessitant une entrée textuelle, tels que des séparateurs, des widgets ou des sorties.

Voici un exemple de flux utilisant le composant Document vers Texte pour faire le lien entre les Récupérateurs de documents et le Générateur IA :

Example of how to use Document Retriever in Flowhunt

Questions fréquemment posées

Qu'est-ce que le composant Document vers Texte ?

Le composant extrait les connaissances des composants de type récupérateur et les transforme en texte markdown lisible, qui peut ensuite être connecté à tout composant acceptant du texte en entrée.

Essayez Document vers Texte dans FlowHunt

Commencez à construire des solutions IA plus intelligentes avec le composant Document vers Texte de FlowHunt. Convertissez facilement les données en texte exploitable et améliorez vos flux de travail automatisés.

En savoir plus