Dokument till text

Dokument till text

Omvandla strukturerad data till läsbar markdown-text med FlowHunts komponent Dokument till Text, som erbjuder anpassningsbara kontroller för effektiv och relevant AI-driven utmatning.

Komponentbeskrivning

Så fungerar Dokument till text-komponenten

AI kan analysera stora mängder data på några sekunder, men bara en del av datan kommer vara relevant eller lämplig för utmatning. Komponenten Dokument till Text ger dig kontroll över hur data från hämtare bearbetas och omvandlas till text.

Dokument till Text-komponenten är utformad för att omvandla kunskapsdokument till ett rent textformat. Detta är särskilt användbart i AI- och databearbetningsflöden där textdata behövs för vidare bearbetning, analys eller som indata till språkmodeller.

Vad komponenten gör

Den här komponenten tar emot ett eller flera strukturerade dokument (såsom HTML, Markdown, PDF eller andra stödda format) och extraherar textinnehållet. Du kan exakt ange vilka delar av dokumenten som ska exporteras, om metadata ska inkluderas, och hur dokumentsektioner eller rubriker ska hanteras. Utmatningen är ett enhetligt meddelandeobjekt som innehåller den extraherade texten, redo för nedströmsuppgifter som summering, klassificering eller frågehantering.

Indata

Komponenten accepterar flera konfigurerbara indata:

IndatanamnTypObligatoriskBeskrivningStandardvärde
DokumentList[Document]JaKunskapsdokumenten att omvandla till text.N/A (användarens val)
Från H1 om finnsBooleanJaStarta extraheringen från första H1-rubriken om den finns.true
Ladda från pekareBooleanJaStarta extraheringen från pekaren som bäst matchar inmatningsfrågan, eller ladda alla om ingen matchar.true
Max antal teckenIntegerNejMaximalt antal tecken i utmatningstexten.3000
Hoppa över sista rubrikBooleanJaHoppa över sista rubriken (ofta en sidfot) för att optimera utmatningen.false
StrategiStringJaTextens extraheringsstrategi: sammanfoga dokument eller inkludera lika mycket från varje.“Inkludera lika mycket från varje dokument”
Exportera innehållFlera valNejVilka innehållstyper som ska inkluderas (t.ex. H1, H2, stycke).Alla typer valda
Inkludera metadataFlera valNejVilka metadatafält som ska inkluderas i utmatningen om de finns.Produkt

Tillgängliga innehållstyper: H1, H2, H3, H4, H5, H6, Stycke
Metadata-alternativ: Författare, Produkt, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Utdata

Komponenten ger följande utdata:

  • Meddelande: Ett meddelandeobjekt som innehåller den transformerade texten och eventuell inkluderad metadata.

Viktiga funktioner & användningsområden

  • Flexibel innehållsextrahering: Styr exakt vilka delar av dina dokument som extraheras (t.ex. bara huvudrubriker och stycken, eller allt innehåll).
  • Inkludering av metadata: Möjlighet att inkludera rik metadata (t.ex. författare, produkt eller strukturerad data) i utmatningen, användbart för vidare kontextualisering.
  • Hantering av teckenbegränsning: Begränsa utmatningens storlek för att passa krav på nedströmsmodeller genom att ställa in ett maxantal tecken.
  • Anpassningsbar extraheringsstrategi:
    • Sammanfoga dokument, fyll från första upp till teckengräns: Prioriterar att fylla utmatningen sekventiellt från det första dokumentet.
    • Inkludera lika mycket från varje dokument: Balanserar innehållet från flera dokument inom teckengränsen.
  • Smart sektionshantering: Alternativ för att hoppa över sidfötter eller starta från den mest relevanta sektionen för din fråga, vilket ökar relevansen i den extraherade texten.

Typiska användningsområden

  • Förbearbetning av kunskapsbaser för AI-modeller (t.ex. innan inbäddning eller indexering).
  • Sammanfatta eller kondensera stora dokument genom att bara extrahera relevanta sektioner.
  • Mata strukturerat innehåll till chattbottar, sökmotorer eller andra processer för naturlig språkbehandling.
  • Bygga hybrida hämtningssystem som kombinerar text med metadata för rikare kontext.

Sammanfattande tabell

FunktionalitetBeskrivning
IndatatyperLista över dokument
UtdatatypMeddelande (Text + Metadata)
InnehållsgranularitetVälj rubriker/stycken att inkludera
Metadata-alternativVälj flera metadatafält att exportera
Kontroll över utmatningsstorlekStäll in max antal tecken
ExtraheringsstrategierSammanfoga eller balansera mellan dokument
SektionsvalBörja från H1, från pekare, eller hoppa över sista rubrik

Strategi

Boten kan genomsöka många dokument för att skapa textutmatningen. Inställningen Strategi låter dig styra hur den använder dessa dokument smart inom teckengränsen.

För närvarande finns två möjliga strategier:

  • Inkludera lika mycket från varje dokument: Utnyttjar alla hittade dokument lika mycket.
  • Sammanfoga dokument, fyll från första upp till teckengräns: Länkar ihop dokumenten och prioriterar dem utifrån relevans för frågan.

Så här kopplar du komponenten Dokument till Text till ditt flöde

Detta är en transformator-komponent, vilket innebär att den överbryggar gapet mellan två utdata. Dokument till Text tar emot dokument som levererats av hämtarkomponenter:

  • Dokumenthämtare – hämtar kunskap från anslutna kunskapskällor (sidor, dokument, etc.).
  • URL-hämtare – Låter dig ange en URL som boten ska hämta kunskap från.
  • GoogleSearch – Ger boten möjlighet att söka på webben efter kunskap.

Kunskapen konverteras till läsbar Markdown-text när den passerar genom transformatorn. Denna text kan sedan kopplas till komponenter som kräver textindata, såsom delare, widgets eller utmatningar.

Här är ett exempel på ett flöde som använder komponenten Dokument till Text för att överbrygga gapet mellan dokumenthämtare och AI-generatorn:

Example of how to use Document Retriever in Flowhunt

Vanliga frågor

Vad är komponenten Dokument till Text?

Komponenten hämtar kunskap från hämtarkomponenter och omvandlar det till läsbar markdown-text, som sedan kan kopplas till vilken komponent som helst som tar text som indata.

Prova Dokument till Text i FlowHunt

Börja bygga smartare AI-lösningar med FlowHunts komponent Dokument till Text. Konvertera data sömlöst till användbar text och förbättra dina automatiserade arbetsflöden.

Lär dig mer

Kunskapskällwidget
Kunskapskällwidget

Kunskapskällwidget

Visa relevanta dokument direkt i dina chatbot-svar med Kunskapskällwidgeten. Denna komponent visar utvalda kunskapsdokument som visuellt särskiljande widgets, v...

2 min läsning
AI Knowledge +4
CSV-utmatning
CSV-utmatning

CSV-utmatning

Generera CSV-filer enkelt inom dina automatiserade arbetsflöden med komponenten CSV-utmatning. Omvandla strukturerad data till nedladdningsbart CSV-format—perfe...

2 min läsning
Automation Data Export +3
Parsa Data
Parsa Data

Parsa Data

Komponenten Parsa Data omvandlar strukturerad data till vanlig text med hjälp av anpassningsbara mallar. Den möjliggör flexibel formatering och konvertering av ...

2 min läsning
Data Processing Automation +3