Dokument na text

Transformujte štruktúrované dáta na čitateľný markdown text pomocou komponentu Document to Text od FlowHunt, ktorý ponúka prispôsobiteľné ovládanie pre efektívny a relevantný AI-výstup.

Dokument na text

Opis komponentu

Ako funguje komponent Dokument na text

AI dokáže analyzovať obrovské množstvo dát v priebehu sekúnd, no len časť z nich bude relevantná alebo vhodná na výstup. Komponent Document to Text vám dáva kontrolu nad tým, ako sú dáta z retrieverov spracované a transformované na text.

Komponent Document to Text

Komponent Document to Text je navrhnutý na transformáciu vstupných znalostných dokumentov do formátu obyčajného textu. Je to obzvlášť užitočné v AI a dátových workflow, kde je potrebný textový výstup na ďalšie spracovanie, analýzu alebo ako vstup pre jazykové modely.

Čo komponent robí

Tento komponent prijíma jeden alebo viac štruktúrovaných dokumentov (napríklad HTML, Markdown, PDF alebo iné podporované formáty) a extrahuje z nich textový obsah. Umožňuje vám presne určiť, ktoré časti dokumentov exportovať, či zahrnúť aj metadáta a ako pracovať so sekciami alebo hlavičkami dokumentu. Výstupom je zjednotený objekt správy obsahujúci extrahovaný text, pripravený na ďalšie úlohy ako sumarizácia, klasifikácia alebo zodpovedanie otázok.

Vstupy

Komponent akceptuje niekoľko konfigurovateľných vstupov:

Názov vstupuTypPovinnýPopisPredvolená hodnota
DokumentyList[Document]ÁnoZnalostné dokumenty, ktoré sa majú transformovať na text.N/A (zadáva používateľ)
Od H1 ak existujeBooleanÁnoZačať extrakciu od prvej H1 hlavičky, ak je prítomná.true
Načítať z pointeraBooleanÁnoZačať extrakciu od pointera najlepšie zodpovedajúceho vstupnému dotazu, alebo načítať všetko ak sa nezhoduje.true
Maximálny počet tokenovIntegerNieMaximálny počet tokenov vo výstupnom texte.3000
Preskočiť poslednú hlavičkuBooleanÁnoPreskočiť poslednú hlavičku (často pätička) pre optimalizáciu výstupu.false
StratégiaStringÁnoStratégia extrakcie textu: zreťaziť dokumenty alebo zahrnúť rovnakú veľkosť z každého.“Zahrnúť rovnakú veľkosť z každého dokumentu”
Exportovať obsahMulti-selectNieKtoré typy obsahu zahrnúť (napr. H1, H2, Odsek).Všetky typy vybrané
Zahrnúť metadátaMulti-selectNieMetadátové polia, ktoré zahrnúť do výstupu, ak sú dostupné.Product

Dostupné typy obsahu: H1, H2, H3, H4, H5, H6, Odsek
Možnosti metadát: Author, Product, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Výstupy

Komponent vytvára nasledujúci výstup:

  • Správa: Objekt správy obsahujúci transformovaný text a všetky zahrnuté metadáta.

Kľúčové vlastnosti a užitočnosť

  • Flexibilná extrakcia obsahu: Presne ovládajte, ktoré časti dokumentov sa extrahujú (napr. len hlavné hlavičky a odseky alebo všetok obsah).
  • Zahrnutie metadát: Voliteľne zahrňte bohaté metadáta (napr. autor, produkt alebo štruktúrované dáta) do výstupu, čo je užitočné pre následnú kontextualizáciu.
  • Správa limitu tokenov: Obmedzte veľkosť výstupu nastavením maximálneho počtu tokenov, aby vyhovoval požiadavkám downstream modelov.
  • Vlastná extrakčná stratégia:
    • Zreťaziť dokumenty, doplniť od prvého po limit tokenov: Prioritizuje sekvenčné dopĺňanie výstupu z prvého dokumentu.
    • Zahrnúť rovnakú veľkosť z každého dokumentu: Vyváži obsah z viacerých dokumentov v rámci limitu tokenov.
  • Inteligentná práca so sekciami: Možnosti preskočiť päty dokumentov alebo začať od najrelevantnejšej sekcie podľa vášho dotazu, čím sa zvyšuje relevantnosť extrahovaného textu.

Typické použitia

  • Predspracovanie znalostných báz pre AI modely (napr. pred vkladaním alebo indexovaním).
  • Sumarizácia alebo zhustenie veľkých dokumentov extrahovaním len relevantných sekcií.
  • Zasielanie štruktúrovaného obsahu do chatbotov, vyhľadávačov alebo iných jazykových spracovateľských pipeline.
  • Budovanie hybridných retrieval systémov, ktoré kombinujú text s metadátami pre bohatší kontext.

Sumárna tabuľka

SchopnosťPopis
Typy vstupovZoznam dokumentov
Typ výstupuSpráva (Text + Metadáta)
Granularita obsahuVýber hlavičiek/odsekov na zahrnutie
Možnosti metadátVýber viacerých metadátových polí na export
Kontrola veľkosti výstupuNastavenie max. počtu tokenov
Extrakčné stratégieZreťaziť alebo vyvážiť medzi dokumentmi
Výber sekcieZačať od H1, z pointera alebo preskočiť poslednú hlavičku

Stratégia

Bot môže prehľadávať mnoho dokumentov, aby vytvoril textový výstup. Nastavenie stratégie vám umožňuje kontrolovať, ako tieto dokumenty efektívne využije a zároveň sa zmestí do limitu tokenov.

Momentálne sú dostupné dve stratégie:

  • Zahrnúť rovnakú veľkosť z každého dokumentu: Využije všetky nájdené dokumenty rovnako.
  • Zreťaziť dokumenty, doplniť od prvého po limit tokenov: Spojí dokumenty dohromady, pričom ich prioritizuje podľa relevantnosti k dotazu.

Ako pripojiť komponent Document to Text do vášho flow

Ide o transformer komponent, čo znamená, že preklenuje výstupy medzi dvoma komponentmi. Document to Text prijíma Dokumenty, ktoré poskytujú Retriever komponenty:

  • Document Retriever – získava znalosti z pripojených znalostných zdrojov (stránky, dokumenty atď.).
  • URL Retriever – umožňuje špecifikovať URL, z ktorého má bot získavať znalosti.
  • GoogleSearch – dáva botovi možnosť vyhľadávať znalosti na webe.

Znalosti sú prekonvertované na čitateľný markdown text, keď prechádzajú cez transformer. Tento text môžete následne pripojiť ku komponentom, ktoré požadujú textový vstup, ako splittery, widgety alebo výstupy.

Tu je príklad workflow, ktorý využíva komponent Document to Text na prepojenie medzi Document Retrievermi a AI Generátorom:

Example of how to use Document Retriever in Flowhunt

Najčastejšie kladené otázky

Čo je komponent Document to Text?

Komponent získava znalosti z komponentov typu retriever a transformuje ich do čitateľného markdown textu, ktorý je možné následne pripojiť k akémukoľvek komponentu, ktorý prijíma text ako vstup.

Vyskúšajte Document to Text vo FlowHunt

Začnite budovať inteligentnejšie AI riešenia s komponentom Document to Text od FlowHunt. Bez problémov konvertujte dáta na akčný text a vylepšite svoje automatizované pracovné postupy.

Zistiť viac