AI kan analysere store mængder data på få sekunder, men kun noget af dataen vil være relevant eller egnet til output. Dokument til Tekst-komponenten giver dig kontrol over, hvordan data fra retrievere behandles og omdannes til tekst.
Dokument til Tekst-komponenten er designet til at omdanne input-vidensdokumenter til almindeligt tekstformat. Dette er særligt nyttigt i AI- og databehandlings-workflows, hvor tekstlige data kræves til videre behandling, analyse eller som input til sprogmodeller.
Hvad komponenten gør
Denne komponent tager et eller flere strukturerede dokumenter (såsom HTML, Markdown, PDF’er eller andre understøttede formater) og udtrækker det tekstlige indhold. Du kan præcist angive, hvilke dele af dokumenterne der skal eksporteres, om metadata skal inkluderes, og hvordan dokumentsektioner eller overskrifter skal håndteres. Outputtet er et samlet besked-objekt, der indeholder den udtrukne tekst, klar til nedstrøms opgaver som opsummering, klassificering eller besvarelse af spørgsmål.
Inputs
Komponenten accepterer flere konfigurerbare inputs:
| Inputnavn | Type | Påkrævet | Beskrivelse | Standardværdi |
|---|---|---|---|---|
| Dokumenter | List[Document] | Ja | De vidensdokumenter, der skal omdannes til tekst. | N/A (angivet af bruger) |
| Fra H1 hvis findes | Boolean | Ja | Start udtræk fra den første H1-overskrift, hvis den findes. | true |
| Indlæs fra pointer | Boolean | Ja | Start udtræk fra det punkt, der bedst matcher inputforespørgslen, eller indlæs alle, hvis ikke matchet. | true |
| Max Tokens | Integer | Nej | Maksimalt antal tokens i outputteksten. | 3000 |
| Spring sidste header over | Boolean | Ja | Spring den sidste header (ofte en footer) over for at optimere output. | false |
| Strategi | String | Ja | Tekstudtræksstrategi: sammenkæd dokumenter eller inkludér lige stor del fra hver. | “Inkludér lige stor del fra hver dokument” |
| Eksportér indhold | Multi-select | Nej | Hvilke indholdstyper der skal inkluderes (fx H1, H2, Afsnit). | Alle typer valgt |
| Inkludér metadata | Multi-select | Nej | Metadatafelter, der skal inkluderes i outputtet, hvis tilgængeligt. | Produkt |
Tilgængelige indholdstyper: H1, H2, H3, H4, H5, H6, Afsnit
Metadata-muligheder: Forfatter, Produkt, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph
Outputs
Komponenten producerer følgende output:
- Besked: Et besked-objekt, der indeholder den transformerede tekst og eventuelle inkluderede metadata.
Nøglefunktioner & anvendelighed
- Fleksibelt indholdsudtræk: Præcis kontrol over, hvilke dele af dine dokumenter der udtrækkes (fx kun hovedoverskrifter og afsnit, eller alt indhold).
- Metadata-inkludering: Mulighed for at inkludere rige metadata (fx forfatter, produkt eller strukturerede data) i outputtet, nyttigt til nedstrøms kontekstualisering.
- Token-grænsestyring: Begræns outputstørrelse, så den passer til kravene for nedstrøms modeller ved at sætte et maksimalt antal tokens.
- Tilpasset udtræksstrategi:
- Sammenkæd dokumenter, fyld fra første op til tokens-grænse: Prioriterer at fylde outputtet sekventielt fra det første dokument.
- Inkludér lige stor del fra hver dokument: Balancerer indhold fra flere dokumenter inden for tokens-grænsen.
- Intelligent sektionhåndtering: Muligheder for at springe dokumentfødder over eller starte fra den mest relevante sektion til din forespørgsel, hvilket øger relevansen af den udtrukne tekst.
Typiske anvendelsestilfælde
- Forbehandling af vidensbaser til AI-modeller (fx før embedding eller indeksering).
- Opsummering eller kondensering af store dokumenter ved kun at udtrække relevante sektioner.
- Indfodring af struktureret indhold i chatbots, søgemaskiner eller andre naturlige sprogbehandlings-pipelines.
- Opbygning af hybride retrieval-systemer, der kombinerer tekst med metadata for rigere kontekst.
Sammenfattende tabel
| Funktionalitet | Beskrivelse |
|---|---|
| Inputtyper | Liste af dokumenter |
| Outputtype | Besked (Tekst + Metadata) |
| Indholdsdetaljeringsgrad | Vælg overskrifter/afsnit, der skal inkluderes |
| Metadata-muligheder | Vælg flere metadatafelter til eksport |
| Outputstørrelseskontrol | Sæt max tokens |
| Udtræksstrategier | Sammenkæd eller balancér på tværs af dokumenter |
| Sektionvalg | Start fra H1, fra pointer eller spring sidste header over |
Strategi
Botten kan gennemgå mange dokumenter for at skabe tekstoutputtet. Indstillingen Strategi lader dig styre, hvordan den udnytter disse dokumenter smart, mens den holder sig inden for tokens-grænsen.
Der er i øjeblikket to mulige strategier:
- Inkludér lige stor del fra hver dokument: Udnytter alle fundne dokumenter ligeligt.
- Sammenkæd dokumenter, fyld fra første op til tokens-grænse: Sammenkæder dokumenterne og prioriterer dem efter relevans for forespørgslen.
Sådan forbinder du Dokument til Tekst-komponenten til dit flow
Dette er en transformer-komponent, hvilket betyder, at den bygger bro mellem to outputs. Dokument til Tekst tager Dokumenter, der er outputtet af Retriever-komponenterne:
- Dokument Retriever – henter viden fra tilknyttede videnskilder (sider, dokumenter osv.).
- URL Retriever – Giver dig mulighed for at angive en URL, hvorfra botten skal hente viden.
- GoogleSearch – Giver botten mulighed for at søge på nettet efter viden.
Viden omdannes til læsbar Markdown-tekst, når den passerer gennem transformeren. Denne tekst kan derefter forbindes til komponenter, der kræver tekstinput, såsom splittere, widgets eller outputs.
Her er et eksempel på et flow, der bruger Dokument til Tekst-komponenten til at bygge bro mellem Dokument Retrieverne og AI Generatoren:

