Documento in Testo
Trasforma dati strutturati in testo markdown leggibile con il componente Documento in Testo di FlowHunt, offrendo controlli personalizzabili per un output AI efficiente e rilevante.

Descrizione del componente
Come funziona il componente Documento in Testo
L’AI può analizzare grandi quantità di dati in pochi secondi, ma solo una parte di questi dati sarà rilevante o adatta all’output. Il componente Documento in Testo ti dà il controllo su come i dati provenienti dai retriever vengono processati e trasformati in testo.
Componente Documento in Testo
Il componente Documento in Testo è progettato per trasformare documenti di conoscenza in input in formato testo semplice. Questo è particolarmente utile nei flussi di lavoro AI e di elaborazione dati dove sono necessari dati testuali per ulteriori elaborazioni, analisi o come input per modelli linguistici.
Cosa fa il componente
Questo componente prende uno o più documenti strutturati (come HTML, Markdown, PDF o altri formati supportati) ed estrae il contenuto testuale. Permette di specificare esattamente quali parti dei documenti esportare, se includere i metadati e come gestire sezioni o intestazioni dei documenti. L’output è un oggetto messaggio unificato contenente il testo estratto, pronto per compiti a valle come sintesi, classificazione o risposta a domande.
Input
Il componente accetta diversi input configurabili:
Nome Input | Tipo | Obbligatorio | Descrizione | Valore Predefinito |
---|---|---|---|---|
Documenti | List[Document] | Sì | I documenti di conoscenza da trasformare in testo. | N/A (fornito dall’utente) |
Da H1 se esiste | Booleano | Sì | Avvia l’estrazione dalla prima intestazione H1 se presente. | true |
Carica da puntatore | Booleano | Sì | Avvia l’estrazione dal puntatore che corrisponde meglio alla query di input, o carica tutto se non corrisponde. | true |
Max Tokens | Intero | No | Numero massimo di token nel testo in output. | 3000 |
Salta ultima intestazione | Booleano | Sì | Salta l’ultima intestazione (spesso un piè di pagina) per ottimizzare l’output. | false |
Strategia | Stringa | Sì | Strategia di estrazione testo: concatena documenti o include uguale dimensione da ciascuno. | “Include equal size from each documents” |
Esporta contenuto | Multi-select | No | Quali tipi di contenuto includere (es. H1, H2, Paragrafo). | Tutti i tipi selezionati |
Includi metadati | Multi-select | No | Quali campi di metadati includere nell’output se disponibili. | Product |
Tipi di contenuto disponibili: H1, H2, H3, H4, H5, H6, Paragrafo
Opzioni metadati: Author, Product, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph
Output
Il componente produce il seguente output:
- Messaggio: Un oggetto messaggio contenente il testo trasformato e gli eventuali metadati inclusi.
Caratteristiche principali e utilità
- Estrazione contenuti flessibile: Controlla con precisione quali parti dei tuoi documenti vengono estratte (es. solo intestazioni principali e paragrafi, o tutto il contenuto).
- Inclusione di metadati: Facoltativamente includi ricchi metadati (es. autore, prodotto o dati strutturati) nell’output, utili per la contestualizzazione a valle.
- Gestione limite token: Limita la dimensione dell’output per soddisfare i requisiti dei modelli a valle impostando un numero massimo di token.
- Strategia di estrazione personalizzata:
- Concatena documenti, riempi dal primo fino al limite di token: Prioritizza il riempimento sequenziale dell’output dal primo documento.
- Include uguale dimensione da ogni documento: Bilancia il contenuto da più documenti entro il limite di token.
- Gestione intelligente delle sezioni: Opzioni per saltare i piè di pagina dei documenti o iniziare dalla sezione più rilevante per la tua query, aumentando la pertinenza del testo estratto.
Casi d’uso tipici
- Preprocessing di basi di conoscenza per modelli AI (es. prima dell’embedding o dell’indicizzazione).
- Sintesi o condensazione di documenti lunghi estraendo solo le sezioni rilevanti.
- Alimentare chatbot, motori di ricerca o altre pipeline di elaborazione del linguaggio con contenuto strutturato.
- Costruire sistemi di recupero ibridi che combinano testo e metadati per un contesto più ricco.
Tabella riassuntiva
Capacità | Descrizione |
---|---|
Tipi di input | Lista di Documenti |
Tipo output | Messaggio (Testo + Metadati) |
Granularità contenuto | Seleziona intestazioni/paragrafi da includere |
Opzioni metadati | Seleziona più campi metadati da esportare |
Controllo dimensione output | Imposta max tokens |
Strategie di estrazione | Concatena o bilancia tra diversi documenti |
Selezione sezioni | Inizia da H1, da puntatore, o salta ultima intestazione |
Strategia
Il bot può scandire molti documenti per creare l’output testuale. L’impostazione Strategia ti permette di controllare come utilizza questi documenti in modo intelligente restando entro il limite di token.
Attualmente, ci sono due strategie possibili:
- Include uguale dimensione da ogni documento: Utilizza tutti i documenti trovati in modo equo.
- Concatena documenti, riempi dal primo fino al limite di token: Collega i documenti tra loro, prioritizzandoli in base alla rilevanza rispetto alla query.
Come collegare il componente Documento in Testo al tuo flow
Questo è un componente trasformatore, ovvero fa da ponte tra due output. Documento in Testo prende i Documenti prodotti dai componenti Retriever:
- Document Retriever – recupera conoscenza dalle fonti di conoscenza collegate (pagine, documenti, ecc.).
- URL Retriever – Consente di specificare un URL da cui il bot deve recuperare conoscenza.
- GoogleSearch – Dà al bot la possibilità di cercare conoscenza sul web.
La conoscenza viene convertita in testo Markdown leggibile mentre passa attraverso il trasformatore. Questo testo può quindi essere collegato a componenti che richiedono input testuale, come splitter, widget o output.
Ecco un esempio di flow che utilizza il componente Documento in Testo per collegare i Document Retriever e il Generatore AI:

Domande frequenti
- Cos'è il componente Documento in Testo?
Il componente recupera conoscenza dai componenti di tipo retriever e la trasforma in testo markdown leggibile, che può poi essere collegato a qualsiasi componente che accetta testo in input.
Prova Documento in Testo su FlowHunt
Inizia a costruire soluzioni AI più intelligenti con il componente Documento in Testo di FlowHunt. Converte senza problemi i dati in testo azionabile e migliora i tuoi flussi di lavoro automatizzati.