Dokument til Tekst

Dokument til Tekst

Omdan strukturerede data til læsbar markdown-tekst med FlowHunt’s Dokument til Tekst-komponent, der tilbyder tilpassede kontroller for effektivt og relevant AI-drevet output.

Komponentbeskrivelse

Sådan fungerer Dokument til Tekst-komponenten

AI kan analysere store mængder data på få sekunder, men kun noget af dataen vil være relevant eller egnet til output. Dokument til Tekst-komponenten giver dig kontrol over, hvordan data fra retrievere behandles og omdannes til tekst.

Dokument til Tekst-komponenten er designet til at omdanne input-vidensdokumenter til almindeligt tekstformat. Dette er særligt nyttigt i AI- og databehandlings-workflows, hvor tekstlige data kræves til videre behandling, analyse eller som input til sprogmodeller.

Hvad komponenten gør

Denne komponent tager et eller flere strukturerede dokumenter (såsom HTML, Markdown, PDF’er eller andre understøttede formater) og udtrækker det tekstlige indhold. Du kan præcist angive, hvilke dele af dokumenterne der skal eksporteres, om metadata skal inkluderes, og hvordan dokumentsektioner eller overskrifter skal håndteres. Outputtet er et samlet besked-objekt, der indeholder den udtrukne tekst, klar til nedstrøms opgaver som opsummering, klassificering eller besvarelse af spørgsmål.

Inputs

Komponenten accepterer flere konfigurerbare inputs:

InputnavnTypePåkrævetBeskrivelseStandardværdi
DokumenterList[Document]JaDe vidensdokumenter, der skal omdannes til tekst.N/A (angivet af bruger)
Fra H1 hvis findesBooleanJaStart udtræk fra den første H1-overskrift, hvis den findes.true
Indlæs fra pointerBooleanJaStart udtræk fra det punkt, der bedst matcher inputforespørgslen, eller indlæs alle, hvis ikke matchet.true
Max TokensIntegerNejMaksimalt antal tokens i outputteksten.3000
Spring sidste header overBooleanJaSpring den sidste header (ofte en footer) over for at optimere output.false
StrategiStringJaTekstudtræksstrategi: sammenkæd dokumenter eller inkludér lige stor del fra hver.“Inkludér lige stor del fra hver dokument”
Eksportér indholdMulti-selectNejHvilke indholdstyper der skal inkluderes (fx H1, H2, Afsnit).Alle typer valgt
Inkludér metadataMulti-selectNejMetadatafelter, der skal inkluderes i outputtet, hvis tilgængeligt.Produkt

Tilgængelige indholdstyper: H1, H2, H3, H4, H5, H6, Afsnit
Metadata-muligheder: Forfatter, Produkt, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Outputs

Komponenten producerer følgende output:

  • Besked: Et besked-objekt, der indeholder den transformerede tekst og eventuelle inkluderede metadata.

Nøglefunktioner & anvendelighed

  • Fleksibelt indholdsudtræk: Præcis kontrol over, hvilke dele af dine dokumenter der udtrækkes (fx kun hovedoverskrifter og afsnit, eller alt indhold).
  • Metadata-inkludering: Mulighed for at inkludere rige metadata (fx forfatter, produkt eller strukturerede data) i outputtet, nyttigt til nedstrøms kontekstualisering.
  • Token-grænsestyring: Begræns outputstørrelse, så den passer til kravene for nedstrøms modeller ved at sætte et maksimalt antal tokens.
  • Tilpasset udtræksstrategi:
    • Sammenkæd dokumenter, fyld fra første op til tokens-grænse: Prioriterer at fylde outputtet sekventielt fra det første dokument.
    • Inkludér lige stor del fra hver dokument: Balancerer indhold fra flere dokumenter inden for tokens-grænsen.
  • Intelligent sektionhåndtering: Muligheder for at springe dokumentfødder over eller starte fra den mest relevante sektion til din forespørgsel, hvilket øger relevansen af den udtrukne tekst.

Typiske anvendelsestilfælde

  • Forbehandling af vidensbaser til AI-modeller (fx før embedding eller indeksering).
  • Opsummering eller kondensering af store dokumenter ved kun at udtrække relevante sektioner.
  • Indfodring af struktureret indhold i chatbots, søgemaskiner eller andre naturlige sprogbehandlings-pipelines.
  • Opbygning af hybride retrieval-systemer, der kombinerer tekst med metadata for rigere kontekst.

Sammenfattende tabel

FunktionalitetBeskrivelse
InputtyperListe af dokumenter
OutputtypeBesked (Tekst + Metadata)
IndholdsdetaljeringsgradVælg overskrifter/afsnit, der skal inkluderes
Metadata-mulighederVælg flere metadatafelter til eksport
OutputstørrelseskontrolSæt max tokens
UdtræksstrategierSammenkæd eller balancér på tværs af dokumenter
SektionvalgStart fra H1, fra pointer eller spring sidste header over

Strategi

Botten kan gennemgå mange dokumenter for at skabe tekstoutputtet. Indstillingen Strategi lader dig styre, hvordan den udnytter disse dokumenter smart, mens den holder sig inden for tokens-grænsen.

Der er i øjeblikket to mulige strategier:

  • Inkludér lige stor del fra hver dokument: Udnytter alle fundne dokumenter ligeligt.
  • Sammenkæd dokumenter, fyld fra første op til tokens-grænse: Sammenkæder dokumenterne og prioriterer dem efter relevans for forespørgslen.

Sådan forbinder du Dokument til Tekst-komponenten til dit flow

Dette er en transformer-komponent, hvilket betyder, at den bygger bro mellem to outputs. Dokument til Tekst tager Dokumenter, der er outputtet af Retriever-komponenterne:

  • Dokument Retriever – henter viden fra tilknyttede videnskilder (sider, dokumenter osv.).
  • URL Retriever – Giver dig mulighed for at angive en URL, hvorfra botten skal hente viden.
  • GoogleSearch – Giver botten mulighed for at søge på nettet efter viden.

Viden omdannes til læsbar Markdown-tekst, når den passerer gennem transformeren. Denne tekst kan derefter forbindes til komponenter, der kræver tekstinput, såsom splittere, widgets eller outputs.

Her er et eksempel på et flow, der bruger Dokument til Tekst-komponenten til at bygge bro mellem Dokument Retrieverne og AI Generatoren:

Example of how to use Document Retriever in Flowhunt

Ofte stillede spørgsmål

Hvad er Dokument til Tekst-komponenten?

Komponenten henter viden fra retriever-typer og omdanner det til læsbar markdown-tekst, som derefter kan forbindes til enhver komponent, der tager tekst som input.

Prøv Dokument til Tekst i FlowHunt

Begynd at bygge smartere AI-løsninger med FlowHunt's Dokument til Tekst-komponent. Omdan problemfrit data til handlingsorienteret tekst og styrk dine automatiserede workflows.

Lær mere

Videnskabskilde-widget
Videnskabskilde-widget

Videnskabskilde-widget

Vis relevante dokumenter direkte i dine chatbot-svar ved hjælp af Videnskabskilde-widgetten. Denne komponent viser udvalgte vidensdokumenter som visuelt adskilt...

2 min læsning
AI Knowledge +4
Separator
Separator

Separator

Separator-komponenten opdeler almindelig tekst i en liste af tekster ved hjælp af en angivet afgrænser. Den er essentiel for arbejdsgange, der kræver opdeling a...

2 min læsning
Automation Components +3
AI-sammenfatter fra indtastet tekst
AI-sammenfatter fra indtastet tekst

AI-sammenfatter fra indtastet tekst

Dette værktøj er ideelt for professionelle, studerende og alle, der arbejder med store informationsmængder. Det hjælper dig med at omdanne lange tekster til kor...

2 min læsning
AI Summarization +4