URL Retriever
URL Retriever vám umožňuje získavať a spracovávať obsah z webových odkazov, s podporou OCR, extrakcie metaúdajov a flexibilného výstupu pre poháňanie AI pracovných tokov.

Opis komponentu
Ako funguje komponent URL Retriever
Komponent URL Retriever
URL Retriever je univerzálny komponent pracovného toku navrhnutý na získavanie a spracovanie webového obsahu zo zadaných URL, pričom informácie vracia ako štruktúrované dokumenty. Slúži ako most medzi externým online obsahom a vaším AI pracovným tokom, čo vám umožňuje efektívne integrovať, analyzovať alebo spracovávať webové informácie.
Čo robí?
Tento komponent načíta obsah jednej alebo viacerých URL, ktoré zadáte ako vstup. Dokáže extrahovať hlavný text, metaúdaje a dokonca spracovať obsah z obrázkov pomocou optického rozpoznávania znakov (OCR). Získané dáta sú následne dostupné v rôznych štruktúrovaných formátoch vhodných pre následné AI úlohy, ako je sumarizácia, odpovedanie na otázky alebo extrakcia znalostí.
Možnosti vstupu
URL môžete komponentu poskytnúť dvoma spôsobmi:
Textové URL:
- Typ vstupu:
Message
- Popis: Zoznam jednoduchých URL odkazov, z ktorých má komponent načítať obsah.
- Typ vstupu:
URL záznamy:
- Typ vstupu:
UrlRecord
- Popis: Zoznam štruktúrovaných záznamov URL, ktoré môžu obsahovať aj ďalšie metaúdaje.
- Typ vstupu:
Pokročilé vstupné parametre
Parameter | Typ | Predvolené | Popis |
---|---|---|---|
Použiť OCR | Boolean | false | Ak je povolené, aplikuje OCR na extrakciu textu z obrázkov v dokumente. |
Cache TTL | Dropdown | 2 týždne | Ako dlho má byť obsah uložený v cache, s možnosťami od žiadnej cache až po 1 rok. |
Z H1 ak existuje | Boolean | true | Začína extrakciu od H1 tagu, ak je prítomný, so zameraním na hlavný obsah. |
Načítať z ukazovateľa | Boolean | true | Načíta obsah od najrelevantnejšej sekcie na základe vášho dopytu. |
Skryť zdroje | Boolean | false | Skryje získané zdroje, aby neboli vo výstupe alebo zobrazené. |
Max počet tokenov | Integer | 3000 | Nastaví maximálny počet tokenov pre výstupný text. |
Preskočiť posledný nadpis | Boolean | true | Preskočí posledný nadpis počas extrakcie pre plynulejší obsah. |
Stratégia | Dropdown | Zahrnúť rovnakú časť z každého dokumentu | Určuje, ako sa obsah kombinuje: úplné zreťazenie alebo zahrnutie rovnakých častí z každého dokumentu. |
Exportovať obsah | Multi-select | Všetko | Vyberte, ktoré HTML elementy exportovať (H1-H6, Odsek). |
Zahrnúť metaúdaje | Multi-select | Produkt | Určite, ktoré metaúdaje zahrnúť (napr. Produkt, Autor, Webstránka, atď.). |
Verbózny výstup | Boolean | false | Povolením získate detailný výstup na účely ladenia alebo informácií. |
Názov nástroja | String | (prázdne) | Voliteľne priradí vlastný názov nástroju pre referenciu agentov. |
Popis nástroja | Multiline | (prázdne) | Uveďte popis, ktorý pomôže agentom pochopiť účel nástroja. |
Výstupy
URL Retriever poskytuje svoje výstupy v niekoľkých formátoch, čo umožňuje flexibilnú integráciu s rôznymi AI procesmi:
Názov výstupu | Typ | Popis |
---|---|---|
Dokumenty | Message | Spracovaný obsah z URL, pripravený na použitie v správach a pracovných tokoch. |
Surové dokumenty | Document | Surové, nespracované objekty dokumentov pre pokročilé ďalšie spracovanie. |
Dokumenty ako nástroj | Tool | Obsah zabalený ako nástroj, čím umožňuje agentovým tokom využiť tieto dokumenty. |
Prečo používať URL Retriever?
- Integrácia externých znalostí: Jednoducho prenášajte webové informácie do svojich AI aplikácií, ako sú chatboti, vyhľadávače alebo znalostné databázy.
- Prispôsobiteľná extrakcia: Presne nastavte, aký obsah a metaúdaje chcete, kontrolujte množstvo dát a využite OCR pre obrázky.
- Výkon & efektivita: Využite cache na zamedzenie opakovaných stiahnutí a obmedzte počet tokenov pre výkon.
- Flexibilné výstupné formáty: Vyberte výstup, ktorý najlepšie zapadne do ďalšieho kroku – štruktúrovaný dokument, správa alebo nástroj.
Príklady použitia
- Tvorba konverzačných agentov viazaných na znalosti, ktorí odpovedajú na otázky pomocou aktuálneho webového obsahu.
- Agregácia produktových dát z e-shopov na porovnávanie alebo analytiku.
- Monitorovanie a analýza blogových alebo spravodajských článkov podľa tém alebo kľúčových slov.
- Extrakcia informácií z webstránok s kombinovaným obsahom (text a obrázky).
Súhrnná tabuľka
Funkcia | Popis |
---|---|
Načíta URL | Získava a spracováva webový obsah zo zadaných URL. |
Podpora OCR | Extrahuje text z obrázkov v dokumentoch, ak je povolené. |
Extrakcia metaúdajov | Voliteľne zahrnie metaúdaje ako autor, produkt alebo typy schema.org. |
Prispôsobiteľný výstup | Vyberte, ktoré HTML elementy alebo metaúdaje chcete exportovať. |
Ukladanie do cache | Konfigurovateľná dĺžka ukladania pre efektivitu. |
Viacero typov výstupu | Podpora správ, surových dokumentov aj nástrojových výstupov pre flexibilitu. |
URL Retriever je silný a flexibilný most medzi webovým obsahom a vašimi AI pracovnými tokmi, ponúkajúci detailnú kontrolu nad extrakciou a integráciou obsahu.
Príklady flow šablón používajúcich komponent URL Retriever
Aby sme vám pomohli rýchlo začať, pripravili sme niekoľko ukážkových flow šablón, ktoré demonštrujú efektívne využitie komponentu URL Retriever. Tieto šablóny prezentujú rôzne prípady použitia a osvedčené postupy, čo vám uľahčí pochopenie a implementáciu komponentu vo vašich vlastných projektoch.
Najčastejšie kladené otázky
- Čo robí komponent URL Retriever?
URL Retriever získava a spracováva obsah zo zadaných webových odkazov, čím sprístupňuje text a metaúdaje z online dokumentov pre váš pracovný tok alebo AI agenta.
- Vie extrahovať obsah z obrázkov alebo PDF?
Áno, po zapnutí voľby OCR dokáže komponent extrahovať text z obrázkových dokumentov alebo skenovaných PDF.
- Aké typy výstupov poskytuje?
Výstupy sú spracované dokumenty ako textové správy, surové objekty dokumentov alebo ako nástroj pre pracovné toky agentov, podľa vášho nastavenia.
- Ako funguje ukladanie do vyrovnávacej pamäte v URL Retriever?
Môžete nastaviť, ako dlho sa získaný obsah ukladá do vyrovnávacej pamäte, čím sa zníži opakované sťahovanie a zrýchli vaše toky.
- Môžem ovplyvniť, ktoré časti webstránky sa extrahujú?
Áno, môžete určiť, ktoré nadpisy, odseky alebo metaúdaje sa majú zahrnúť do výstupu, čo umožňuje cielenú extrakciu.
- Je tento komponent vhodný na tvorbu znalostných botov alebo webové dátové automatizácie?
Určite. URL Retriever je nevyhnutný pre akúkoľvek automatizáciu alebo chatbota, ktorý potrebuje čítať, spracovávať alebo sumarizovať živý webový obsah.
Vyskúšajte FlowHunt URL Retriever
Zvýšte výkon svojich pracovných tokov integráciou živého webového obsahu. Extrahujte, spracovávajte a využívajte dáta z URL jednoducho.