
Dokument til tekst
Transformer strukturerte data til lesbar markdown-tekst med FlowHunts Document to Text-komponent, som tilbyr tilpassbare kontroller for effektiv og relevant AI-drevet utdata.
Komponentbeskrivelse
Hvordan Dokument til tekst-komponenten fungerer
KI kan analysere store mengder data på sekunder, men bare noe av informasjonen vil være relevant eller egnet for utdata. Document to Text-komponenten gir deg kontroll over hvordan data fra retrievere behandles og omformes til tekst.
Document to Text-komponenten er utviklet for å omforme inngående kunnskapsdokumenter til vanlig tekstformat. Dette er spesielt nyttig i KI- og databehandlingsflyter der tekstdata kreves for videre behandling, analyse eller som input til språkmodeller.
Hva komponenten gjør
Denne komponenten tar ett eller flere strukturerte dokumenter (som HTML, Markdown, PDF-er eller andre støttede formater) og trekker ut tekstinnholdet. Du kan spesifisere nøyaktig hvilke deler av dokumentene som skal eksporteres, om metadata skal inkluderes, og hvordan dokumentseksjoner eller overskrifter skal håndteres. Resultatet er et samlet meldingsobjekt med den uttrukne teksten, klart for videre oppgaver som oppsummering, klassifisering eller spørsmål og svar.
Inndata
Komponenten godtar flere konfigurerbare inndata:
| Inndatanavn | Type | Påkrevd | Beskrivelse | Standardverdi |
|---|---|---|---|---|
| Dokumenter | List[Document] | Ja | Kunnskapsdokumentene som skal omformes til tekst. | N/A (bruker leverer) |
| Fra H1 hvis finnes | Boolean | Ja | Start uttrekking fra den første H1-overskriften hvis den finnes. | true |
| Last fra peker | Boolean | Ja | Start uttrekking fra pekeren som best matcher innspørringen, eller last alle hvis ingen treff. | true |
| Maks antall tokens | Integer | Nei | Maksimalt antall tokens i utdata-teksten. | 3000 |
| Hopp over siste header | Boolean | Ja | Hopp over siste overskrift (ofte en footer) for å optimalisere utdata. | false |
| Strategi | String | Ja | Strategi for tekstuttrekking: sett sammen dokumenter eller inkluder lik størrelse fra hver. | “Inkluder lik størrelse fra hvert dokument” |
| Eksporter innhold | Multi-select | Nei | Hvilke innholdstyper skal inkluderes (f.eks. H1, H2, Avsnitt). | Alle typer valgt |
| Inkluder metadata | Multi-select | Nei | Metadatafelter som skal inkluderes i utdata hvis tilgjengelig. | Produkt |
Tilgjengelige innholdstyper: H1, H2, H3, H4, H5, H6, Avsnitt
Metadata-alternativer: Forfatter, Produkt, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph
Utdata
Komponenten produserer følgende utdata:
- Melding: Et meldingsobjekt som inneholder den omformede teksten og eventuell inkludert metadata.
Viktige egenskaper og nytte
- Fleksibel innholduttrekking: Presis kontroll over hvilke deler av dokumentene som trekkes ut (f.eks. kun hovedoverskrifter og avsnitt, eller alt innhold).
- Inkludering av metadata: Valgfri inkludering av rik metadata (f.eks. forfatter, produkt eller strukturert data) i utdataene, nyttig for videre kontekstualisering.
- Tokenbegrensning: Begrens utstørrelsen slik at den passer nedstrøms modellkrav ved å sette maks antall tokens.
- Egendefinert uttrekkingsstrategi:
- Sett sammen dokumenter, fyll fra første opp til token-grense: Prioriterer sekvensiell utfylling fra det første dokumentet.
- Inkluder lik størrelse fra hvert dokument: Balanserer innholdet fra flere dokumenter innenfor token-grensen.
- Smart seksjonshåndtering: Mulighet for å hoppe over footere eller starte fra den mest relevante seksjonen for spørringen din, noe som øker relevansen på uttrukket tekst.
Typiske bruksområder
- Forbehandling av kunnskapsbaser for KI-modeller (f.eks. før embedding eller indeksering).
- Oppsummere eller kondensere store dokumenter ved å kun trekke ut relevante seksjoner.
- Gi strukturert innhold til chatboter, søkemotorer eller andre språkbehandlingspipelines.
- Bygge hybride gjenfinningssystemer som kombinerer tekst med metadata for rikere kontekst.
Oppsummeringstabell
| Funksjonalitet | Beskrivelse |
|---|---|
| Inndatatyper | Liste over dokumenter |
| Utdata-type | Melding (Tekst + Metadata) |
| Innholdsgranularitet | Velg overskrifter/avsnitt som skal inkluderes |
| Metadata-alternativer | Velg flere metadatafelter å eksportere |
| Kontroll over utstørrelse | Sett maks antall tokens |
| Uttrekkingsstrategier | Sett sammen eller balanser på tvers av dokumenter |
| Seksjonsvalg | Start fra H1, fra peker, eller hopp over siste header |
Strategi
Bot-en kan gjennomsøke mange dokumenter for å lage tekstutdata. Strategi-innstillingen lar deg styre hvordan den benytter disse dokumentene smart innenfor token-grensen.
For øyeblikket finnes det to mulige strategier:
- Inkluder lik størrelse fra hvert dokument: Benytter alle funnede dokumenter likt.
- Sett sammen dokumenter, fyll fra første opp til token-grense: Kobler dokumentene sammen og prioriterer dem etter relevans til spørringen.
Slik kobler du Document to Text-komponenten til din flyt
Dette er en transformer-komponent, noe som betyr at den bygger bro mellom to utdata. Document to Text tar imot Dokumenter fra Retriever-komponentene:
- Document Retriever – henter kunnskap fra tilkoblede kunnskapskilder (sider, dokumenter osv.).
- URL Retriever – Lar deg spesifisere en URL som boten skal hente kunnskap fra.
- GoogleSearch – Gir boten mulighet til å søke på nettet etter kunnskap.
Kunnskapen konverteres til lesbar Markdown-tekst mens den passerer gjennom transformeren. Denne teksten kan deretter kobles til komponenter som krever tekstinput, som splittere, widgets eller utdata.
Her er et eksempel på en flyt der Document to Text-komponenten brukes til å bygge bro mellom Document Retrievers og AI Generator:

Vanlige spørsmål
- Hva er Document to Text-komponenten?
Komponenten henter kunnskap fra retriever-komponenter og omformer den til lesbar markdown-tekst, som deretter kan kobles til enhver komponent som tar tekst som input.
Prøv Document to Text i FlowHunt
Begynn å bygge smartere AI-løsninger med FlowHunts Document to Text-komponent. Konverter data sømløst til handlingsbar tekst og forbedre dine automatiserte arbeidsflyter.