URL Retriever

URL Retriever vám umožňuje získavať a spracovávať obsah z webových odkazov, s podporou OCR, extrakcie metaúdajov a flexibilného výstupu pre poháňanie AI pracovných tokov.

URL Retriever

Opis komponentu

Ako funguje komponent URL Retriever

Komponent URL Retriever

URL Retriever je univerzálny komponent pracovného toku navrhnutý na získavanie a spracovanie webového obsahu zo zadaných URL, pričom informácie vracia ako štruktúrované dokumenty. Slúži ako most medzi externým online obsahom a vaším AI pracovným tokom, čo vám umožňuje efektívne integrovať, analyzovať alebo spracovávať webové informácie.

Čo robí?

Tento komponent načíta obsah jednej alebo viacerých URL, ktoré zadáte ako vstup. Dokáže extrahovať hlavný text, metaúdaje a dokonca spracovať obsah z obrázkov pomocou optického rozpoznávania znakov (OCR). Získané dáta sú následne dostupné v rôznych štruktúrovaných formátoch vhodných pre následné AI úlohy, ako je sumarizácia, odpovedanie na otázky alebo extrakcia znalostí.

Možnosti vstupu

URL môžete komponentu poskytnúť dvoma spôsobmi:

  • Textové URL:

    • Typ vstupu: Message
    • Popis: Zoznam jednoduchých URL odkazov, z ktorých má komponent načítať obsah.
  • URL záznamy:

    • Typ vstupu: UrlRecord
    • Popis: Zoznam štruktúrovaných záznamov URL, ktoré môžu obsahovať aj ďalšie metaúdaje.

Pokročilé vstupné parametre

ParameterTypPredvolenéPopis
Použiť OCRBooleanfalseAk je povolené, aplikuje OCR na extrakciu textu z obrázkov v dokumente.
Cache TTLDropdown2 týždneAko dlho má byť obsah uložený v cache, s možnosťami od žiadnej cache až po 1 rok.
Z H1 ak existujeBooleantrueZačína extrakciu od H1 tagu, ak je prítomný, so zameraním na hlavný obsah.
Načítať z ukazovateľaBooleantrueNačíta obsah od najrelevantnejšej sekcie na základe vášho dopytu.
Skryť zdrojeBooleanfalseSkryje získané zdroje, aby neboli vo výstupe alebo zobrazené.
Max počet tokenovInteger3000Nastaví maximálny počet tokenov pre výstupný text.
Preskočiť posledný nadpisBooleantruePreskočí posledný nadpis počas extrakcie pre plynulejší obsah.
StratégiaDropdownZahrnúť rovnakú časť z každého dokumentuUrčuje, ako sa obsah kombinuje: úplné zreťazenie alebo zahrnutie rovnakých častí z každého dokumentu.
Exportovať obsahMulti-selectVšetkoVyberte, ktoré HTML elementy exportovať (H1-H6, Odsek).
Zahrnúť metaúdajeMulti-selectProduktUrčite, ktoré metaúdaje zahrnúť (napr. Produkt, Autor, Webstránka, atď.).
Verbózny výstupBooleanfalsePovolením získate detailný výstup na účely ladenia alebo informácií.
Názov nástrojaString(prázdne)Voliteľne priradí vlastný názov nástroju pre referenciu agentov.
Popis nástrojaMultiline(prázdne)Uveďte popis, ktorý pomôže agentom pochopiť účel nástroja.

Výstupy

URL Retriever poskytuje svoje výstupy v niekoľkých formátoch, čo umožňuje flexibilnú integráciu s rôznymi AI procesmi:

Názov výstupuTypPopis
DokumentyMessageSpracovaný obsah z URL, pripravený na použitie v správach a pracovných tokoch.
Surové dokumentyDocumentSurové, nespracované objekty dokumentov pre pokročilé ďalšie spracovanie.
Dokumenty ako nástrojToolObsah zabalený ako nástroj, čím umožňuje agentovým tokom využiť tieto dokumenty.

Prečo používať URL Retriever?

  • Integrácia externých znalostí: Jednoducho prenášajte webové informácie do svojich AI aplikácií, ako sú chatboti, vyhľadávače alebo znalostné databázy.
  • Prispôsobiteľná extrakcia: Presne nastavte, aký obsah a metaúdaje chcete, kontrolujte množstvo dát a využite OCR pre obrázky.
  • Výkon & efektivita: Využite cache na zamedzenie opakovaných stiahnutí a obmedzte počet tokenov pre výkon.
  • Flexibilné výstupné formáty: Vyberte výstup, ktorý najlepšie zapadne do ďalšieho kroku – štruktúrovaný dokument, správa alebo nástroj.

Príklady použitia

  • Tvorba konverzačných agentov viazaných na znalosti, ktorí odpovedajú na otázky pomocou aktuálneho webového obsahu.
  • Agregácia produktových dát z e-shopov na porovnávanie alebo analytiku.
  • Monitorovanie a analýza blogových alebo spravodajských článkov podľa tém alebo kľúčových slov.
  • Extrakcia informácií z webstránok s kombinovaným obsahom (text a obrázky).

Súhrnná tabuľka

FunkciaPopis
Načíta URLZískava a spracováva webový obsah zo zadaných URL.
Podpora OCRExtrahuje text z obrázkov v dokumentoch, ak je povolené.
Extrakcia metaúdajovVoliteľne zahrnie metaúdaje ako autor, produkt alebo typy schema.org.
Prispôsobiteľný výstupVyberte, ktoré HTML elementy alebo metaúdaje chcete exportovať.
Ukladanie do cacheKonfigurovateľná dĺžka ukladania pre efektivitu.
Viacero typov výstupuPodpora správ, surových dokumentov aj nástrojových výstupov pre flexibilitu.

URL Retriever je silný a flexibilný most medzi webovým obsahom a vašimi AI pracovnými tokmi, ponúkajúci detailnú kontrolu nad extrakciou a integráciou obsahu.

Príklady flow šablón používajúcich komponent URL Retriever

Aby sme vám pomohli rýchlo začať, pripravili sme niekoľko ukážkových flow šablón, ktoré demonštrujú efektívne využitie komponentu URL Retriever. Tieto šablóny prezentujú rôzne prípady použitia a osvedčené postupy, čo vám uľahčí pochopenie a implementáciu komponentu vo vašich vlastných projektoch.

Najčastejšie kladené otázky

Čo robí komponent URL Retriever?

URL Retriever získava a spracováva obsah zo zadaných webových odkazov, čím sprístupňuje text a metaúdaje z online dokumentov pre váš pracovný tok alebo AI agenta.

Vie extrahovať obsah z obrázkov alebo PDF?

Áno, po zapnutí voľby OCR dokáže komponent extrahovať text z obrázkových dokumentov alebo skenovaných PDF.

Aké typy výstupov poskytuje?

Výstupy sú spracované dokumenty ako textové správy, surové objekty dokumentov alebo ako nástroj pre pracovné toky agentov, podľa vášho nastavenia.

Ako funguje ukladanie do vyrovnávacej pamäte v URL Retriever?

Môžete nastaviť, ako dlho sa získaný obsah ukladá do vyrovnávacej pamäte, čím sa zníži opakované sťahovanie a zrýchli vaše toky.

Môžem ovplyvniť, ktoré časti webstránky sa extrahujú?

Áno, môžete určiť, ktoré nadpisy, odseky alebo metaúdaje sa majú zahrnúť do výstupu, čo umožňuje cielenú extrakciu.

Je tento komponent vhodný na tvorbu znalostných botov alebo webové dátové automatizácie?

Určite. URL Retriever je nevyhnutný pre akúkoľvek automatizáciu alebo chatbota, ktorý potrebuje čítať, spracovávať alebo sumarizovať živý webový obsah.

Vyskúšajte FlowHunt URL Retriever

Zvýšte výkon svojich pracovných tokov integráciou živého webového obsahu. Extrahujte, spracovávajte a využívajte dáta z URL jednoducho.

Zistiť viac