Dokument til tekst

Dokument til tekst

Transformer strukturerte data til lesbar markdown-tekst med FlowHunts Document to Text-komponent, som tilbyr tilpassbare kontroller for effektiv og relevant AI-drevet utdata.

Komponentbeskrivelse

Hvordan Dokument til tekst-komponenten fungerer

KI kan analysere store mengder data på sekunder, men bare noe av informasjonen vil være relevant eller egnet for utdata. Document to Text-komponenten gir deg kontroll over hvordan data fra retrievere behandles og omformes til tekst.

Document to Text-komponenten er utviklet for å omforme inngående kunnskapsdokumenter til vanlig tekstformat. Dette er spesielt nyttig i KI- og databehandlingsflyter der tekstdata kreves for videre behandling, analyse eller som input til språkmodeller.

Hva komponenten gjør

Denne komponenten tar ett eller flere strukturerte dokumenter (som HTML, Markdown, PDF-er eller andre støttede formater) og trekker ut tekstinnholdet. Du kan spesifisere nøyaktig hvilke deler av dokumentene som skal eksporteres, om metadata skal inkluderes, og hvordan dokumentseksjoner eller overskrifter skal håndteres. Resultatet er et samlet meldingsobjekt med den uttrukne teksten, klart for videre oppgaver som oppsummering, klassifisering eller spørsmål og svar.

Inndata

Komponenten godtar flere konfigurerbare inndata:

InndatanavnTypePåkrevdBeskrivelseStandardverdi
DokumenterList[Document]JaKunnskapsdokumentene som skal omformes til tekst.N/A (bruker leverer)
Fra H1 hvis finnesBooleanJaStart uttrekking fra den første H1-overskriften hvis den finnes.true
Last fra pekerBooleanJaStart uttrekking fra pekeren som best matcher innspørringen, eller last alle hvis ingen treff.true
Maks antall tokensIntegerNeiMaksimalt antall tokens i utdata-teksten.3000
Hopp over siste headerBooleanJaHopp over siste overskrift (ofte en footer) for å optimalisere utdata.false
StrategiStringJaStrategi for tekstuttrekking: sett sammen dokumenter eller inkluder lik størrelse fra hver.“Inkluder lik størrelse fra hvert dokument”
Eksporter innholdMulti-selectNeiHvilke innholdstyper skal inkluderes (f.eks. H1, H2, Avsnitt).Alle typer valgt
Inkluder metadataMulti-selectNeiMetadatafelter som skal inkluderes i utdata hvis tilgjengelig.Produkt

Tilgjengelige innholdstyper: H1, H2, H3, H4, H5, H6, Avsnitt
Metadata-alternativer: Forfatter, Produkt, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Utdata

Komponenten produserer følgende utdata:

  • Melding: Et meldingsobjekt som inneholder den omformede teksten og eventuell inkludert metadata.

Viktige egenskaper og nytte

  • Fleksibel innholduttrekking: Presis kontroll over hvilke deler av dokumentene som trekkes ut (f.eks. kun hovedoverskrifter og avsnitt, eller alt innhold).
  • Inkludering av metadata: Valgfri inkludering av rik metadata (f.eks. forfatter, produkt eller strukturert data) i utdataene, nyttig for videre kontekstualisering.
  • Tokenbegrensning: Begrens utstørrelsen slik at den passer nedstrøms modellkrav ved å sette maks antall tokens.
  • Egendefinert uttrekkingsstrategi:
    • Sett sammen dokumenter, fyll fra første opp til token-grense: Prioriterer sekvensiell utfylling fra det første dokumentet.
    • Inkluder lik størrelse fra hvert dokument: Balanserer innholdet fra flere dokumenter innenfor token-grensen.
  • Smart seksjonshåndtering: Mulighet for å hoppe over footere eller starte fra den mest relevante seksjonen for spørringen din, noe som øker relevansen på uttrukket tekst.

Typiske bruksområder

  • Forbehandling av kunnskapsbaser for KI-modeller (f.eks. før embedding eller indeksering).
  • Oppsummere eller kondensere store dokumenter ved å kun trekke ut relevante seksjoner.
  • Gi strukturert innhold til chatboter, søkemotorer eller andre språkbehandlingspipelines.
  • Bygge hybride gjenfinningssystemer som kombinerer tekst med metadata for rikere kontekst.

Oppsummeringstabell

FunksjonalitetBeskrivelse
InndatatyperListe over dokumenter
Utdata-typeMelding (Tekst + Metadata)
InnholdsgranularitetVelg overskrifter/avsnitt som skal inkluderes
Metadata-alternativerVelg flere metadatafelter å eksportere
Kontroll over utstørrelseSett maks antall tokens
UttrekkingsstrategierSett sammen eller balanser på tvers av dokumenter
SeksjonsvalgStart fra H1, fra peker, eller hopp over siste header

Strategi

Bot-en kan gjennomsøke mange dokumenter for å lage tekstutdata. Strategi-innstillingen lar deg styre hvordan den benytter disse dokumentene smart innenfor token-grensen.

For øyeblikket finnes det to mulige strategier:

  • Inkluder lik størrelse fra hvert dokument: Benytter alle funnede dokumenter likt.
  • Sett sammen dokumenter, fyll fra første opp til token-grense: Kobler dokumentene sammen og prioriterer dem etter relevans til spørringen.

Slik kobler du Document to Text-komponenten til din flyt

Dette er en transformer-komponent, noe som betyr at den bygger bro mellom to utdata. Document to Text tar imot Dokumenter fra Retriever-komponentene:

  • Document Retriever – henter kunnskap fra tilkoblede kunnskapskilder (sider, dokumenter osv.).
  • URL Retriever – Lar deg spesifisere en URL som boten skal hente kunnskap fra.
  • GoogleSearch – Gir boten mulighet til å søke på nettet etter kunnskap.

Kunnskapen konverteres til lesbar Markdown-tekst mens den passerer gjennom transformeren. Denne teksten kan deretter kobles til komponenter som krever tekstinput, som splittere, widgets eller utdata.

Her er et eksempel på en flyt der Document to Text-komponenten brukes til å bygge bro mellom Document Retrievers og AI Generator:

Example of how to use Document Retriever in Flowhunt

Vanlige spørsmål

Hva er Document to Text-komponenten?

Komponenten henter kunnskap fra retriever-komponenter og omformer den til lesbar markdown-tekst, som deretter kan kobles til enhver komponent som tar tekst som input.

Prøv Document to Text i FlowHunt

Begynn å bygge smartere AI-løsninger med FlowHunts Document to Text-komponent. Konverter data sømløst til handlingsbar tekst og forbedre dine automatiserte arbeidsflyter.

Lær mer

Analyser Data
Analyser Data

Analyser Data

Komponenten Analyser Data omformer strukturert data til ren tekst ved hjelp av tilpassbare maler. Den muliggjør fleksibel formatering og konvertering av datainn...

2 min lesing
Data Processing Automation +3
Kunnskapskilde-widget
Kunnskapskilde-widget

Kunnskapskilde-widget

Vis relevante dokumenter direkte i chatbot-svarene dine ved hjelp av Kunnskapskilde-widgeten. Denne komponenten viser utvalgte kunnskapsdokumenter som visuelt t...

2 min lesing
AI Knowledge +4
Eksporter til PDF
Eksporter til PDF

Eksporter til PDF

Transformer tekst til klare PDF-filer for nedlasting med Eksporter til PDF-komponenten i FlowHunt. Konverter sømløst markdown eller ren tekst fra arbeidsflyten ...

2 min lesing
PDF Document Generation +4