Document vers Texte
Transformez des données structurées en texte markdown lisible avec le composant Document vers Texte de FlowHunt, offrant des contrôles personnalisables pour une sortie efficace et pertinente alimentée par l’IA.

Description du composant
Comment fonctionne le composant Document vers Texte
L’IA peut analyser de grandes quantités de données en quelques secondes, mais seules certaines de ces données seront pertinentes ou adaptées à la sortie. Le composant Document vers Texte vous donne le contrôle sur la façon dont les données issues des récupérateurs sont traitées et transformées en texte.
Composant Document vers Texte
Le composant Document vers Texte est conçu pour transformer les documents de connaissances d’entrée en format texte brut. Cela est particulièrement utile dans les flux de traitement de données et d’IA où des données textuelles sont nécessaires pour un traitement ultérieur, une analyse ou comme entrée pour des modèles de langage.
Ce que fait le composant
Ce composant prend un ou plusieurs documents structurés (tels que HTML, Markdown, PDF ou autres formats pris en charge) et extrait le contenu textuel. Il vous permet de spécifier précisément quelles parties des documents exporter, s’il faut inclure les métadonnées, et comment gérer les sections ou en-têtes du document. La sortie est un objet message unifié contenant le texte extrait, prêt pour des tâches en aval comme la synthèse, la classification ou la réponse à des questions.
Entrées
Le composant accepte plusieurs entrées configurables :
Nom de l’entrée | Type | Requis | Description | Valeur par défaut |
---|---|---|---|---|
Documents | Liste[Document] | Oui | Les documents de connaissances à transformer en texte. | N/A (fourni par l’utilisateur) |
Depuis H1 si existe | Booléen | Oui | Commencer l’extraction à partir du premier en-tête H1 si présent. | true |
Charger depuis pointeur | Booléen | Oui | Commencer l’extraction depuis le pointeur correspondant le mieux à la requête, ou tout charger si non trouvé. | true |
Max Tokens | Entier | Non | Nombre maximal de tokens dans le texte de sortie. | 3000 |
Sauter le dernier en-tête | Booléen | Oui | Sauter le dernier en-tête (souvent un pied de page) pour optimiser la sortie. | false |
Stratégie | Chaîne | Oui | Stratégie d’extraction du texte : concaténer les documents ou inclure une taille égale de chacun. | “Inclure une taille égale de chaque document” |
Exporter contenu | Multi-sélection | Non | Types de contenu à inclure (ex : H1, H2, Paragraphe). | Tous les types sélectionnés |
Inclure métadonnées | Multi-sélection | Non | Champs de métadonnées à inclure dans la sortie si disponibles. | Produit |
Types de contenu disponibles : H1, H2, H3, H4, H5, H6, Paragraphe
Options de métadonnées : Auteur, Produit, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph
Sorties
Le composant produit la sortie suivante :
- Message : Un objet message contenant le texte transformé et toute métadonnée incluse.
Fonctionnalités clés & Utilité
- Extraction de contenu flexible : Contrôlez précisément quelles parties de vos documents sont extraites (ex : seulement les en-têtes principaux et les paragraphes, ou tout le contenu).
- Inclusion des métadonnées : Incluez si besoin des métadonnées enrichies (ex : auteur, produit ou données structurées) dans la sortie, utile pour la contextualisation en aval.
- Gestion de la limite de tokens : Limitez la taille de la sortie pour répondre aux exigences des modèles en aval en définissant un nombre maximal de tokens.
- Stratégie d’extraction personnalisée :
- Concaténer les documents, remplir en partant du premier jusqu’à la limite de tokens : Priorise le remplissage séquentiel à partir du premier document.
- Inclure une taille égale de chaque document : Équilibre le contenu de plusieurs documents dans la limite de tokens.
- Gestion intelligente des sections : Options pour ignorer les pieds de page ou commencer depuis la section la plus pertinente par rapport à votre requête, augmentant la pertinence du texte extrait.
Cas d’utilisation typiques
- Prétraitement des bases de connaissances pour les modèles IA (ex : avant l’intégration ou l’indexation).
- Résumé ou condensation de grands documents en extrayant uniquement les sections pertinentes.
- Alimentation de contenu structuré dans des chatbots, moteurs de recherche ou autres pipelines de traitement du langage naturel.
- Construction de systèmes de recherche hybrides combinant texte et métadonnées pour un contexte enrichi.
Tableau récapitulatif
Fonctionnalité | Description |
---|---|
Types d’entrée | Liste de documents |
Type de sortie | Message (Texte + Métadonnées) |
Granularité du contenu | Sélectionner les en-têtes/paragraphe à inclure |
Options de métadonnées | Sélectionner plusieurs champs de métadonnées à exporter |
Contrôle de la taille de sortie | Définir le nombre maximal de tokens |
Stratégies d’extraction | Concaténer ou équilibrer entre les documents |
Sélection de section | Commencer depuis H1, depuis un pointeur, ou ignorer le dernier en-tête |
Stratégie
Le bot peut explorer de nombreux documents pour créer la sortie texte. Le réglage Stratégie vous permet de contrôler comment il utilise intelligemment ces documents tout en respectant la limite de tokens.
Actuellement, il existe deux stratégies possibles :
- Inclure une taille égale de chaque document : Utilise tous les documents trouvés de manière équitable.
- Concaténer les documents, remplir en partant du premier jusqu’à la limite de tokens : Relie les documents en les priorisant par pertinence pour la requête.
Comment connecter le composant Document vers Texte à votre flux
C’est un composant transformateur, ce qui signifie qu’il fait le lien entre deux sorties. Document vers Texte prend les Documents issus des composants Récupérateurs :
- Récupérateur de documents – récupère les connaissances à partir de sources connectées (pages, documents, etc.).
- Récupérateur d’URL – vous permet de spécifier une URL à partir de laquelle le bot doit extraire les connaissances.
- GoogleSearch – donne au bot la capacité de rechercher des connaissances sur le web.
Les connaissances sont converties en texte Markdown lisible lorsqu’elles passent par le transformateur. Ce texte peut ensuite être connecté à des composants nécessitant une entrée textuelle, tels que des séparateurs, des widgets ou des sorties.
Voici un exemple de flux utilisant le composant Document vers Texte pour faire le lien entre les Récupérateurs de documents et le Générateur IA :

Questions fréquemment posées
- Qu'est-ce que le composant Document vers Texte ?
Le composant extrait les connaissances des composants de type récupérateur et les transforme en texte markdown lisible, qui peut ensuite être connecté à tout composant acceptant du texte en entrée.
Essayez Document vers Texte dans FlowHunt
Commencez à construire des solutions IA plus intelligentes avec le composant Document vers Texte de FlowHunt. Convertissez facilement les données en texte exploitable et améliorez vos flux de travail automatisés.