Hvad er Dokument til Tekst-komponenten?

Komponenten henter viden fra retriever-typer og omdanner det til læsbar markdown-tekst, som derefter kan forbindes til enhver komponent, der tager tekst som input.

Dokument til Tekst

AI kan analysere store mængder data på få sekunder, men kun noget af dataen vil være relevant eller egnet til output. Dokument til Tekst-komponenten giver dig kontrol over, hvordan data fra retrievere behandles og omdannes til tekst.

Dokument til Tekst-komponenten er designet til at omdanne input-vidensdokumenter til almindeligt tekstformat. Dette er særligt nyttigt i AI- og databehandlings-workflows, hvor tekstlige data kræves til videre behandling, analyse eller som input til sprogmodeller.

Hvad komponenten gør

Denne komponent tager et eller flere strukturerede dokumenter (såsom HTML, Markdown, PDF’er eller andre understøttede formater) og udtrækker det tekstlige indhold. Du kan præcist angive, hvilke dele af dokumenterne der skal eksporteres, om metadata skal inkluderes, og hvordan dokumentsektioner eller overskrifter skal håndteres. Outputtet er et samlet besked-objekt, der indeholder den udtrukne tekst, klar til nedstrøms opgaver som opsummering, klassificering eller besvarelse af spørgsmål.

Inputs

Komponenten accepterer flere konfigurerbare inputs:

Inputnavn	Type	Påkrævet	Beskrivelse	Standardværdi
Dokumenter	List[Document]	Ja	De vidensdokumenter, der skal omdannes til tekst.	N/A (angivet af bruger)
Fra H1 hvis findes	Boolean	Ja	Start udtræk fra den første H1-overskrift, hvis den findes.	true
Indlæs fra pointer	Boolean	Ja	Start udtræk fra det punkt, der bedst matcher inputforespørgslen, eller indlæs alle, hvis ikke matchet.	true
Max Tokens	Integer	Nej	Maksimalt antal tokens i outputteksten.	3000
Spring sidste header over	Boolean	Ja	Spring den sidste header (ofte en footer) over for at optimere output.	false
Strategi	String	Ja	Tekstudtræksstrategi: sammenkæd dokumenter eller inkludér lige stor del fra hver.	“Inkludér lige stor del fra hver dokument”
Eksportér indhold	Multi-select	Nej	Hvilke indholdstyper der skal inkluderes (fx H1, H2, Afsnit).	Alle typer valgt
Inkludér metadata	Multi-select	Nej	Metadatafelter, der skal inkluderes i outputtet, hvis tilgængeligt.	Produkt

Tilgængelige indholdstyper: H1, H2, H3, H4, H5, H6, Afsnit
Metadata-muligheder: Forfatter, Produkt, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Outputs

Komponenten producerer følgende output:

Besked: Et besked-objekt, der indeholder den transformerede tekst og eventuelle inkluderede metadata.

Nøglefunktioner & anvendelighed

Fleksibelt indholdsudtræk: Præcis kontrol over, hvilke dele af dine dokumenter der udtrækkes (fx kun hovedoverskrifter og afsnit, eller alt indhold).
Metadata-inkludering: Mulighed for at inkludere rige metadata (fx forfatter, produkt eller strukturerede data) i outputtet, nyttigt til nedstrøms kontekstualisering.
Token-grænsestyring: Begræns outputstørrelse, så den passer til kravene for nedstrøms modeller ved at sætte et maksimalt antal tokens.
Tilpasset udtræksstrategi:
- Sammenkæd dokumenter, fyld fra første op til tokens-grænse: Prioriterer at fylde outputtet sekventielt fra det første dokument.
- Inkludér lige stor del fra hver dokument: Balancerer indhold fra flere dokumenter inden for tokens-grænsen.
Intelligent sektionhåndtering: Muligheder for at springe dokumentfødder over eller starte fra den mest relevante sektion til din forespørgsel, hvilket øger relevansen af den udtrukne tekst.

Typiske anvendelsestilfælde

Forbehandling af vidensbaser til AI-modeller (fx før embedding eller indeksering).
Opsummering eller kondensering af store dokumenter ved kun at udtrække relevante sektioner.
Indfodring af struktureret indhold i chatbots, søgemaskiner eller andre naturlige sprogbehandlings-pipelines.
Opbygning af hybride retrieval-systemer, der kombinerer tekst med metadata for rigere kontekst.

Sammenfattende tabel

Funktionalitet	Beskrivelse
Inputtyper	Liste af dokumenter
Outputtype	Besked (Tekst + Metadata)
Indholdsdetaljeringsgrad	Vælg overskrifter/afsnit, der skal inkluderes
Metadata-muligheder	Vælg flere metadatafelter til eksport
Outputstørrelseskontrol	Sæt max tokens
Udtræksstrategier	Sammenkæd eller balancér på tværs af dokumenter
Sektionvalg	Start fra H1, fra pointer eller spring sidste header over

Strategi

Botten kan gennemgå mange dokumenter for at skabe tekstoutputtet. Indstillingen Strategi lader dig styre, hvordan den udnytter disse dokumenter smart, mens den holder sig inden for tokens-grænsen.

Der er i øjeblikket to mulige strategier:

Inkludér lige stor del fra hver dokument: Udnytter alle fundne dokumenter ligeligt.
Sammenkæd dokumenter, fyld fra første op til tokens-grænse: Sammenkæder dokumenterne og prioriterer dem efter relevans for forespørgslen.

Sådan forbinder du Dokument til Tekst-komponenten til dit flow

Dette er en transformer-komponent, hvilket betyder, at den bygger bro mellem to outputs. Dokument til Tekst tager Dokumenter, der er outputtet af Retriever-komponenterne:

Dokument Retriever – henter viden fra tilknyttede videnskilder (sider, dokumenter osv.).
URL Retriever – Giver dig mulighed for at angive en URL, hvorfra botten skal hente viden.
GoogleSearch – Giver botten mulighed for at søge på nettet efter viden.

Viden omdannes til læsbar Markdown-tekst, når den passerer gennem transformeren. Denne tekst kan derefter forbindes til komponenter, der kræver tekstinput, såsom splittere, widgets eller outputs.

Her er et eksempel på et flow, der bruger Dokument til Tekst-komponenten til at bygge bro mellem Dokument Retrieverne og AI Generatoren: