Dokumentista tekstiksi

Dokumentista tekstiksi

Muunna rakenteinen data luettavaan markdown-tekstiin FlowHuntin Dokumentista tekstiksi -komponentilla, joka tarjoaa räätälöitävät ohjaimet tehokkaaseen ja olennaiseen tekoälyn tuottamaan tulokseen.

Komponentin kuvaus

Kuinka Dokumentista tekstiksi-komponentti toimii

Tekoäly voi analysoida suuria tietomääriä sekunneissa, mutta vain osa datasta on olennaista tai sopivaa tulostettavaksi. Dokumentista tekstiksi -komponentti antaa sinulle hallinnan siihen, miten hakijoiden data käsitellään ja muunnetaan tekstiksi.

Dokumentista tekstiksi -komponentti on suunniteltu muuntamaan syötetyt tietodokumentit tavalliseen tekstimuotoon. Tämä on erityisen hyödyllistä tekoäly- ja datankäsittelyprosesseissa, joissa tekstimuotoista dataa tarvitaan jatkokäsittelyä, analysointia tai kielimalleille syöttämistä varten.

Mitä komponentti tekee

Tämä komponentti ottaa yhden tai useamman rakenteisen dokumentin (kuten HTML, Markdown, PDF tai muut tuetut muodot) ja purkaa niistä tekstisisällön. Voit määritellä tarkasti, mitkä osat dokumenteista viedään ulos, sisällytetäänkö metatietoja ja miten dokumentin osioita tai otsikoita käsitellään. Tuloksena on yhtenäinen viestiobjekti, joka sisältää puretun tekstin ja on valmis jatkokäsittelyyn, kuten tiivistämiseen, luokitteluun tai kysymyksiin vastaamiseen.

Syötteet

Komponentti hyväksyy useita muokattavia syötteitä:

Syötteen nimiTyyppiPakollinenKuvausOletusarvo
DokumentitList[Document]KylläTiedot, jotka muunnetaan tekstiksi.N/A (käyttäjän annettava)
Alkaen H1 jos onBooleanKylläAloita purku ensimmäisestä H1-otsikosta, jos sellainen löytyy.true
Lataa osoittimestaBooleanKylläAloita purku osoittimesta, joka parhaiten vastaa syötekyselyä, tai lataa kaikki, jos ei löydy.true
Max TokensIntegerEiTulostetekstin enimmäismerkkimäärä (tokenit).3000
Ohita viimeinen otsikkoBooleanKylläOhita viimeinen otsikko (usein alatunniste) tulosteen optimoimiseksi.false
StrategiaStringKylläTekstin purkustrategia: yhdistä dokumentit tai sisällytä yhtä paljon jokaisesta.“Sisällytä yhtä paljon jokaisesta dokumentista”
Vie sisältöMonivalintaEiMitä sisältötyyppejä sisällytetään (esim. H1, H2, kappale).Kaikki tyypit valittu
Sisällytä metatiedotMonivalintaEiMitä metatietokenttiä sisällytetään tulosteeseen, jos saatavilla.Product

Käytettävissä olevat sisältötyypit: H1, H2, H3, H4, H5, H6, Kappale
Metatietovaihtoehdot: Author, Product, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Tulosteet

Komponentti tuottaa seuraavan tulosteen:

  • Viestin: Viestiobjekti, joka sisältää muunnetun tekstin ja mahdolliset sisällytetyt metatiedot.

Keskeiset ominaisuudet & hyödyt

  • Joustava sisältöpurku: Hallitse tarkasti, mitkä dokumenttiesi osat puretaan (esim. vain pääotsikot ja kappaleet tai kaikki sisältö).
  • Metatietojen sisällytys: Halutessasi voit lisätä rikasta metatietoa (esim. kirjoittaja, tuote tai rakenteinen data) tulosteeseen, mikä hyödyttää jatkokontekstointia.
  • Token-rajojen hallinta: Voit rajoittaa tulosteen kokoa asettamalla sille enimmäistoken-määrän, jotta se sopii jatkomalleille.
  • Mukautettava purkustrategia:
    • Yhdistä dokumentit, täytä ensimmäisestä token-rajaan asti: Täyttää tulosteen järjestyksessä ensimmäisestä dokumentista alkaen.
    • Sisällytä yhtä paljon jokaisesta dokumentista: Tasapainottaa sisällön useista dokumenteista token-rajan puitteissa.
  • Älykäs osioiden käsittely: Voit ohittaa dokumentin alatunnisteet tai aloittaa purun kyselyysi sopivimmasta osiosta, mikä lisää puretun tekstin osuvuutta.

Tyypillisiä käyttötapauksia

  • Tietopankkien esikäsittely tekoälymalleille (esim. ennen upotusta tai indeksointia).
  • Suurten dokumenttien tiivistäminen purkamalla vain olennaiset osat.
  • Rakenteisen sisällön syöttäminen chatteihin, hakukoneille tai muihin luonnollisen kielen käsittelyputkiin.
  • Hybridihakujärjestelmien rakentaminen, joissa yhdistetään tekstiä ja metatietoa kattavamman kontekstin luomiseksi.

Yhteenvetotaulukko

OminaisuusKuvaus
SyötetietotyypitDokumenttilista
TulostyyppiViesti (Teksti + Metatiedot)
Sisällön tarkkuusValitse mukaan otettavat otsikot/kappaleet
MetatietovaihtoehdotValitse useita metatietokenttiä vietäväksi
Tulosteen koon hallintaAseta tokenien enimmäismäärä
PurkustrategiatYhdistä tai tasapainota dokumenttien välillä
Osioiden valintaAloita H1:stä, osoittimesta tai ohita viimeinen otsikko

Strategia

Botti voi selata useita dokumentteja luodakseen tekstitulosteen. Strategia-asetus antaa sinun hallita, miten näitä dokumentteja hyödynnetään älykkäästi pysyen token-rajan sisällä.

Tällä hetkellä kaksi mahdollista strategiaa:

  • Sisällytä yhtä paljon jokaisesta dokumentista: Hyödyntää kaikkia löydettyjä dokumentteja tasapuolisesti.
  • Yhdistä dokumentit, täytä ensimmäisestä token-rajaan asti: Yhdistää dokumentit priorisoiden niiden osuvuutta kyselyyn.

Kuinka liittää Dokumentista tekstiksi -komponentti työnkulkuusi

Tämä on muunninkomponentti, eli se toimii siltana kahden tulosteen välillä. Dokumentista tekstiksi ottaa Retriever-komponenttien tuottamat dokumentit:

  • Document Retriever – hakee tietoa liitetyistä tietolähteistä (sivut, dokumentit jne.).
  • URL Retriever – Voit määrittää URL-osoitteen, josta botti hakee tietoa.
  • GoogleSearch – Mahdollistaa botille tiedon haun verkosta.

Tieto muunnetaan luettavaan Markdown-tekstiin kulkiessaan muuntimen läpi. Tämä teksti voidaan liittää seuraaviin komponentteihin, jotka tarvitsevat tekstisyötettä, kuten splitters, widgetit tai tulosteet.

Tässä on esimerkkityönkulku, jossa Dokumentista tekstiksi -komponenttia käytetään siltana Document Retrieverin ja AI Generatorin välillä:

Example of how to use Document Retriever in Flowhunt

Usein kysytyt kysymykset

Mikä on Dokumentista tekstiksi -komponentti?

Komponentti hakee tietoa hakija-tyyppisistä komponenteista ja muuntaa sen luettavaan markdown-tekstiin, jonka voi liittää mihin tahansa komponenttiin, joka ottaa tekstin syötteenä.

Kokeile Dokumentista tekstiksi FlowHuntissa

Aloita älykkäämpien tekoälyratkaisujen rakentaminen FlowHuntin Dokumentista tekstiksi -komponentilla. Muunna data saumattomasti toiminnalliseksi tekstiksi ja tehosta automatisoituja työnkulkuja.

Lue lisää

Jäsennä data
Jäsennä data

Jäsennä data

Parse Data -komponentti muuntaa jäsennellyn datan pelkäksi tekstiksi mukautettavien mallipohjien avulla. Sen avulla voit joustavasti muotoilla ja muuntaa datatu...

2 min lukuaika
Data Processing Automation +3
Vie tiedostoon
Vie tiedostoon

Vie tiedostoon

Vie tiedostoon -komponentin avulla FlowHuntissa voit tallentaa työnkulun aikana syntyvää tekstiä tai dataa ladattaviin tiedostoihin useissa eri muodoissa, kuten...

2 min lukuaika
Automation File Export +3
Tekstin luokittelu
Tekstin luokittelu

Tekstin luokittelu

Tekstin luokittelu, tunnetaan myös nimillä tekstin kategorisointi tai tekstin tunnisteiden lisääminen, on keskeinen NLP-tehtävä, jossa tekstidokumenteille annet...

5 min lukuaika
NLP Text Classification +4