Dokument na text
Transformujte štruktúrované dáta na čitateľný markdown text pomocou komponentu Document to Text od FlowHunt, ktorý ponúka prispôsobiteľné ovládanie pre efektívny a relevantný AI-výstup.

Opis komponentu
Ako funguje komponent Dokument na text
AI dokáže analyzovať obrovské množstvo dát v priebehu sekúnd, no len časť z nich bude relevantná alebo vhodná na výstup. Komponent Document to Text vám dáva kontrolu nad tým, ako sú dáta z retrieverov spracované a transformované na text.
Komponent Document to Text
Komponent Document to Text je navrhnutý na transformáciu vstupných znalostných dokumentov do formátu obyčajného textu. Je to obzvlášť užitočné v AI a dátových workflow, kde je potrebný textový výstup na ďalšie spracovanie, analýzu alebo ako vstup pre jazykové modely.
Čo komponent robí
Tento komponent prijíma jeden alebo viac štruktúrovaných dokumentov (napríklad HTML, Markdown, PDF alebo iné podporované formáty) a extrahuje z nich textový obsah. Umožňuje vám presne určiť, ktoré časti dokumentov exportovať, či zahrnúť aj metadáta a ako pracovať so sekciami alebo hlavičkami dokumentu. Výstupom je zjednotený objekt správy obsahujúci extrahovaný text, pripravený na ďalšie úlohy ako sumarizácia, klasifikácia alebo zodpovedanie otázok.
Vstupy
Komponent akceptuje niekoľko konfigurovateľných vstupov:
Názov vstupu | Typ | Povinný | Popis | Predvolená hodnota |
---|---|---|---|---|
Dokumenty | List[Document] | Áno | Znalostné dokumenty, ktoré sa majú transformovať na text. | N/A (zadáva používateľ) |
Od H1 ak existuje | Boolean | Áno | Začať extrakciu od prvej H1 hlavičky, ak je prítomná. | true |
Načítať z pointera | Boolean | Áno | Začať extrakciu od pointera najlepšie zodpovedajúceho vstupnému dotazu, alebo načítať všetko ak sa nezhoduje. | true |
Maximálny počet tokenov | Integer | Nie | Maximálny počet tokenov vo výstupnom texte. | 3000 |
Preskočiť poslednú hlavičku | Boolean | Áno | Preskočiť poslednú hlavičku (často pätička) pre optimalizáciu výstupu. | false |
Stratégia | String | Áno | Stratégia extrakcie textu: zreťaziť dokumenty alebo zahrnúť rovnakú veľkosť z každého. | “Zahrnúť rovnakú veľkosť z každého dokumentu” |
Exportovať obsah | Multi-select | Nie | Ktoré typy obsahu zahrnúť (napr. H1, H2, Odsek). | Všetky typy vybrané |
Zahrnúť metadáta | Multi-select | Nie | Metadátové polia, ktoré zahrnúť do výstupu, ak sú dostupné. | Product |
Dostupné typy obsahu: H1, H2, H3, H4, H5, H6, Odsek
Možnosti metadát: Author, Product, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph
Výstupy
Komponent vytvára nasledujúci výstup:
- Správa: Objekt správy obsahujúci transformovaný text a všetky zahrnuté metadáta.
Kľúčové vlastnosti a užitočnosť
- Flexibilná extrakcia obsahu: Presne ovládajte, ktoré časti dokumentov sa extrahujú (napr. len hlavné hlavičky a odseky alebo všetok obsah).
- Zahrnutie metadát: Voliteľne zahrňte bohaté metadáta (napr. autor, produkt alebo štruktúrované dáta) do výstupu, čo je užitočné pre následnú kontextualizáciu.
- Správa limitu tokenov: Obmedzte veľkosť výstupu nastavením maximálneho počtu tokenov, aby vyhovoval požiadavkám downstream modelov.
- Vlastná extrakčná stratégia:
- Zreťaziť dokumenty, doplniť od prvého po limit tokenov: Prioritizuje sekvenčné dopĺňanie výstupu z prvého dokumentu.
- Zahrnúť rovnakú veľkosť z každého dokumentu: Vyváži obsah z viacerých dokumentov v rámci limitu tokenov.
- Inteligentná práca so sekciami: Možnosti preskočiť päty dokumentov alebo začať od najrelevantnejšej sekcie podľa vášho dotazu, čím sa zvyšuje relevantnosť extrahovaného textu.
Typické použitia
- Predspracovanie znalostných báz pre AI modely (napr. pred vkladaním alebo indexovaním).
- Sumarizácia alebo zhustenie veľkých dokumentov extrahovaním len relevantných sekcií.
- Zasielanie štruktúrovaného obsahu do chatbotov, vyhľadávačov alebo iných jazykových spracovateľských pipeline.
- Budovanie hybridných retrieval systémov, ktoré kombinujú text s metadátami pre bohatší kontext.
Sumárna tabuľka
Schopnosť | Popis |
---|---|
Typy vstupov | Zoznam dokumentov |
Typ výstupu | Správa (Text + Metadáta) |
Granularita obsahu | Výber hlavičiek/odsekov na zahrnutie |
Možnosti metadát | Výber viacerých metadátových polí na export |
Kontrola veľkosti výstupu | Nastavenie max. počtu tokenov |
Extrakčné stratégie | Zreťaziť alebo vyvážiť medzi dokumentmi |
Výber sekcie | Začať od H1, z pointera alebo preskočiť poslednú hlavičku |
Stratégia
Bot môže prehľadávať mnoho dokumentov, aby vytvoril textový výstup. Nastavenie stratégie vám umožňuje kontrolovať, ako tieto dokumenty efektívne využije a zároveň sa zmestí do limitu tokenov.
Momentálne sú dostupné dve stratégie:
- Zahrnúť rovnakú veľkosť z každého dokumentu: Využije všetky nájdené dokumenty rovnako.
- Zreťaziť dokumenty, doplniť od prvého po limit tokenov: Spojí dokumenty dohromady, pričom ich prioritizuje podľa relevantnosti k dotazu.
Ako pripojiť komponent Document to Text do vášho flow
Ide o transformer komponent, čo znamená, že preklenuje výstupy medzi dvoma komponentmi. Document to Text prijíma Dokumenty, ktoré poskytujú Retriever komponenty:
- Document Retriever – získava znalosti z pripojených znalostných zdrojov (stránky, dokumenty atď.).
- URL Retriever – umožňuje špecifikovať URL, z ktorého má bot získavať znalosti.
- GoogleSearch – dáva botovi možnosť vyhľadávať znalosti na webe.
Znalosti sú prekonvertované na čitateľný markdown text, keď prechádzajú cez transformer. Tento text môžete následne pripojiť ku komponentom, ktoré požadujú textový vstup, ako splittery, widgety alebo výstupy.
Tu je príklad workflow, ktorý využíva komponent Document to Text na prepojenie medzi Document Retrievermi a AI Generátorom:

Najčastejšie kladené otázky
- Čo je komponent Document to Text?
Komponent získava znalosti z komponentov typu retriever a transformuje ich do čitateľného markdown textu, ktorý je možné následne pripojiť k akémukoľvek komponentu, ktorý prijíma text ako vstup.
Vyskúšajte Document to Text vo FlowHunt
Začnite budovať inteligentnejšie AI riešenia s komponentom Document to Text od FlowHunt. Bez problémov konvertujte dáta na akčný text a vylepšite svoje automatizované pracovné postupy.