Document la Text

Document la Text

Transformă datele structurate în text markdown lizibil cu componenta Document la Text de la FlowHunt, oferind controale personalizabile pentru rezultate eficiente și relevante generate de AI.

Descrierea componentei

Cum funcționează componenta Document la Text

AI-ul poate analiza cantități mari de date în câteva secunde, dar doar unele dintre date vor fi relevante sau potrivite pentru output. Componenta Document la Text îți oferă control asupra modului în care datele preluate sunt procesate și transformate în text.

Componenta Document la Text este concepută pentru a transforma documente de cunoștințe introduse într-un format de text simplu. Acest lucru este deosebit de util în fluxurile de lucru de AI și procesare a datelor unde este nevoie de date text pentru procesări ulterioare, analiză sau ca input pentru modele de limbaj.

Ce face componenta

Această componentă preia unul sau mai multe documente structurate (precum HTML, Markdown, PDF-uri sau alte formate suportate) și extrage conținutul textual. Poți specifica exact care părți din documente să fie exportate, dacă să incluzi sau nu metadate și cum să gestionezi secțiunile sau titlurile documentului. Output-ul este un obiect mesaj unificat ce conține textul extras, gata pentru sarcini precum sumarizare, clasificare sau răspuns la întrebări.

Inputuri

Componenta acceptă mai multe inputuri configurabile:

Nume InputTipObligatoriuDescriereValoare Implicită
DocumenteListă[Document]DaDocumentele de cunoștințe ce trebuie transformate în text.N/A (furnizat de utilizator)
De la H1 dacă existăBooleanDaÎncepe extragerea de la primul header H1, dacă este prezent.true
Încarcă de la pointerBooleanDaÎncepe extragerea de la pointerul care se potrivește cel mai bine cu query-ul sau încarcă tot dacă nu există potrivire.true
Max TokensIntegerNuNumărul maxim de tokeni în textul de output.3000
Omite ultimul headerBooleanDaOmite ultimul header (adesea un footer) pentru a optimiza output-ul.false
StrategieStringDaStrategia de extragere a textului: concatenează documentele sau include părți egale din fiecare.“Include dimensiune egală din fiecare document”
Exportă conținutMulti-selectNuCe tipuri de conținut să fie incluse (ex: H1, H2, Paragraf).Toate tipurile selectate
Include MetadateMulti-selectNuCâmpuri de metadate ce se pot include în output, dacă sunt disponibile.Produs

Tipuri de conținut disponibile: H1, H2, H3, H4, H5, H6, Paragraf
Opțiuni metadate: Autor, Produs, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Outputuri

Componenta generează următorul output:

  • Mesaj: Un obiect mesaj ce conține textul transformat și orice metadate incluse.

Funcționalități cheie & Utilitate

  • Extragere flexibilă a conținutului: Poți controla exact ce părți din documente să fie extrase (ex: doar titlurile principale și paragrafele, sau tot conținutul).
  • Incluziune metadate: Opțional poți include metadate bogate (ex: autor, produs sau date structurate) în output, util pentru contextualizare ulterioară.
  • Gestionarea limitei de tokeni: Poți limita dimensiunea output-ului pentru a se încadra în cerințele modelului din aval, setând un număr maxim de tokeni.
  • Strategie de extragere personalizată:
    • Concatenează documentele, umple de la primul până la limita de tokeni: Prioritizează completarea secvențială a output-ului de la primul document.
    • Include dimensiune egală din fiecare document: Echilibrează conținutul din mai multe documente în limita de tokeni.
  • Gestionare inteligentă a secțiunilor: Opțiuni de a omite footerele documentului sau de a începe din secțiunea cea mai relevantă pentru query-ul tău, crescând relevanța textului extras.

Cazuri de utilizare tipice

  • Preprocesarea bazelor de cunoștințe pentru modele AI (ex: înainte de embedding sau indexare).
  • Sumarizarea sau condensarea documentelor mari prin extragerea doar a secțiunilor relevante.
  • Furnizarea de conținut structurat către chatboți, motoare de căutare sau alte fluxuri de procesare a limbajului natural.
  • Construirea de sisteme hibride de recuperare ce combină textul cu metadate pentru context mai bogat.

Tabel Rezumat

CapacitateDescriere
Tipuri de inputListă de Documente
Tip outputMesaj (Text + Metadate)
Granularitate conținutSelectează titluri/paragrafe de inclus
Opțiuni metadateSelectează multiple câmpuri de metadate pentru export
Control dimensiune outputSetează număr maxim de tokeni
Strategii de extragereConcatenare sau echilibrare între documente
Selecție secțiuneÎncepe de la H1, de la pointer sau omite ultimul header

Strategie

Botul poate parcurge multe documente pentru a crea output-ul text. Setarea Strategie îți oferă control asupra modului în care utilizează aceste documente inteligent, rămânând în limita de tokeni.

În prezent, există două strategii posibile:

  • Include dimensiune egală din fiecare document: Utilizează în mod egal toate documentele găsite.
  • Concatenează documentele, umple de la primul până la limita de tokeni: Leagă documentele în funcție de relevanța față de query.

Cum conectezi componenta Document la Text în flow-ul tău

Aceasta este o componentă de tip transformator, ceea ce înseamnă că intermediază între două output-uri. Document la Text preia output-ul Documentelor generate de componentele Retriever:

  • Document Retriever – preia cunoștințe din surse de cunoștințe conectate (pagini, documente etc.).
  • URL Retriever – Îți permite să specifici o adresă URL de unde botul va prelua cunoștințe.
  • GoogleSearch – Oferă botului abilitatea de a căuta pe web informații relevante.

Cunoștințele sunt convertite în text Markdown lizibil pe măsură ce trec prin transformator. Acest text poate fi apoi conectat la componente care necesită input text, precum splittere, widget-uri sau output-uri.

Iată un exemplu de flow ce folosește componenta Document la Text pentru a face legătura între Document Retrievers și AI Generator:

Exemplu de folosire a Document Retriever în Flowhunt

Întrebări frecvente

Ce este componenta Document la Text?

Componenta preia cunoștințe din componente de tip recuperator și le transformă în text markdown lizibil, care poate fi apoi conectat la orice componentă ce acceptă text ca input.

Încearcă Document la Text în FlowHunt

Începe să construiești soluții AI mai inteligente cu Document la Text de la FlowHunt. Convertește perfect datele în text valorificabil și îmbunătățește-ți fluxurile de lucru automatizate.

Află mai multe

Exportă în fișier
Exportă în fișier

Exportă în fișier

Componenta Exportă în fișier din FlowHunt îți permite să salvezi text sau date generate în timpul fluxului de lucru în fișiere descărcabile în diverse formate, ...

2 min citire
Automation File Export +3
Parsează datele
Parsează datele

Parsează datele

Componenta Parsează datele transformă datele structurate în text simplu folosind șabloane personalizabile. Permite formatarea flexibilă și conversia datelor de ...

2 min citire
Data Processing Automation +3
Widget Sursă de Cunoștințe
Widget Sursă de Cunoștințe

Widget Sursă de Cunoștințe

Prezentați documente relevante direct în răspunsurile chatbot-ului folosind Widget-ul Sursă de Cunoștințe. Acest component afișează documentele selectate ca wid...

2 min citire
AI Knowledge +4