Documento in Testo

Trasforma dati strutturati in testo markdown leggibile con il componente Documento in Testo di FlowHunt, offrendo controlli personalizzabili per un output AI efficiente e rilevante.

Documento in Testo

Descrizione del componente

Come funziona il componente Documento in Testo

L’AI può analizzare grandi quantità di dati in pochi secondi, ma solo una parte di questi dati sarà rilevante o adatta all’output. Il componente Documento in Testo ti dà il controllo su come i dati provenienti dai retriever vengono processati e trasformati in testo.

Componente Documento in Testo

Il componente Documento in Testo è progettato per trasformare documenti di conoscenza in input in formato testo semplice. Questo è particolarmente utile nei flussi di lavoro AI e di elaborazione dati dove sono necessari dati testuali per ulteriori elaborazioni, analisi o come input per modelli linguistici.

Cosa fa il componente

Questo componente prende uno o più documenti strutturati (come HTML, Markdown, PDF o altri formati supportati) ed estrae il contenuto testuale. Permette di specificare esattamente quali parti dei documenti esportare, se includere i metadati e come gestire sezioni o intestazioni dei documenti. L’output è un oggetto messaggio unificato contenente il testo estratto, pronto per compiti a valle come sintesi, classificazione o risposta a domande.

Input

Il componente accetta diversi input configurabili:

Nome InputTipoObbligatorioDescrizioneValore Predefinito
DocumentiList[Document]I documenti di conoscenza da trasformare in testo.N/A (fornito dall’utente)
Da H1 se esisteBooleanoAvvia l’estrazione dalla prima intestazione H1 se presente.true
Carica da puntatoreBooleanoAvvia l’estrazione dal puntatore che corrisponde meglio alla query di input, o carica tutto se non corrisponde.true
Max TokensInteroNoNumero massimo di token nel testo in output.3000
Salta ultima intestazioneBooleanoSalta l’ultima intestazione (spesso un piè di pagina) per ottimizzare l’output.false
StrategiaStringaStrategia di estrazione testo: concatena documenti o include uguale dimensione da ciascuno.“Include equal size from each documents”
Esporta contenutoMulti-selectNoQuali tipi di contenuto includere (es. H1, H2, Paragrafo).Tutti i tipi selezionati
Includi metadatiMulti-selectNoQuali campi di metadati includere nell’output se disponibili.Product

Tipi di contenuto disponibili: H1, H2, H3, H4, H5, H6, Paragrafo
Opzioni metadati: Author, Product, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Output

Il componente produce il seguente output:

  • Messaggio: Un oggetto messaggio contenente il testo trasformato e gli eventuali metadati inclusi.

Caratteristiche principali e utilità

  • Estrazione contenuti flessibile: Controlla con precisione quali parti dei tuoi documenti vengono estratte (es. solo intestazioni principali e paragrafi, o tutto il contenuto).
  • Inclusione di metadati: Facoltativamente includi ricchi metadati (es. autore, prodotto o dati strutturati) nell’output, utili per la contestualizzazione a valle.
  • Gestione limite token: Limita la dimensione dell’output per soddisfare i requisiti dei modelli a valle impostando un numero massimo di token.
  • Strategia di estrazione personalizzata:
    • Concatena documenti, riempi dal primo fino al limite di token: Prioritizza il riempimento sequenziale dell’output dal primo documento.
    • Include uguale dimensione da ogni documento: Bilancia il contenuto da più documenti entro il limite di token.
  • Gestione intelligente delle sezioni: Opzioni per saltare i piè di pagina dei documenti o iniziare dalla sezione più rilevante per la tua query, aumentando la pertinenza del testo estratto.

Casi d’uso tipici

  • Preprocessing di basi di conoscenza per modelli AI (es. prima dell’embedding o dell’indicizzazione).
  • Sintesi o condensazione di documenti lunghi estraendo solo le sezioni rilevanti.
  • Alimentare chatbot, motori di ricerca o altre pipeline di elaborazione del linguaggio con contenuto strutturato.
  • Costruire sistemi di recupero ibridi che combinano testo e metadati per un contesto più ricco.

Tabella riassuntiva

CapacitàDescrizione
Tipi di inputLista di Documenti
Tipo outputMessaggio (Testo + Metadati)
Granularità contenutoSeleziona intestazioni/paragrafi da includere
Opzioni metadatiSeleziona più campi metadati da esportare
Controllo dimensione outputImposta max tokens
Strategie di estrazioneConcatena o bilancia tra diversi documenti
Selezione sezioniInizia da H1, da puntatore, o salta ultima intestazione

Strategia

Il bot può scandire molti documenti per creare l’output testuale. L’impostazione Strategia ti permette di controllare come utilizza questi documenti in modo intelligente restando entro il limite di token.

Attualmente, ci sono due strategie possibili:

  • Include uguale dimensione da ogni documento: Utilizza tutti i documenti trovati in modo equo.
  • Concatena documenti, riempi dal primo fino al limite di token: Collega i documenti tra loro, prioritizzandoli in base alla rilevanza rispetto alla query.

Come collegare il componente Documento in Testo al tuo flow

Questo è un componente trasformatore, ovvero fa da ponte tra due output. Documento in Testo prende i Documenti prodotti dai componenti Retriever:

  • Document Retriever – recupera conoscenza dalle fonti di conoscenza collegate (pagine, documenti, ecc.).
  • URL Retriever – Consente di specificare un URL da cui il bot deve recuperare conoscenza.
  • GoogleSearch – Dà al bot la possibilità di cercare conoscenza sul web.

La conoscenza viene convertita in testo Markdown leggibile mentre passa attraverso il trasformatore. Questo testo può quindi essere collegato a componenti che richiedono input testuale, come splitter, widget o output.

Ecco un esempio di flow che utilizza il componente Documento in Testo per collegare i Document Retriever e il Generatore AI:

Example of how to use Document Retriever in Flowhunt

Domande frequenti

Cos'è il componente Documento in Testo?

Il componente recupera conoscenza dai componenti di tipo retriever e la trasforma in testo markdown leggibile, che può poi essere collegato a qualsiasi componente che accetta testo in input.

Prova Documento in Testo su FlowHunt

Inizia a costruire soluzioni AI più intelligenti con il componente Documento in Testo di FlowHunt. Converte senza problemi i dati in testo azionabile e migliora i tuoi flussi di lavoro automatizzati.

Scopri di più