URL Retriever

URL Retriever ti permette di recuperare e processare contenuti da link web, supportando OCR, estrazione di metadati e output flessibili per alimentare i flussi di lavoro AI.

URL Retriever

Descrizione del componente

Come funziona il componente URL Retriever

Componente URL Retriever

Il URL Retriever è un componente versatile progettato per recuperare e processare contenuti web da URL specificati, restituendo le informazioni come documenti strutturati. Funziona come ponte tra contenuti online esterni e il tuo flusso di lavoro AI, permettendoti di integrare, analizzare o processare informazioni web in modo efficiente.

Cosa fa?

Questo componente recupera il contenuto di uno o più URL forniti come input. Può estrarre il testo principale, i metadati e persino processare contenuti da immagini usando il riconoscimento ottico dei caratteri (OCR). I dati recuperati sono quindi disponibili in vari formati strutturati adatti a compiti AI a valle come riassunti, domande e risposte o estrazione di conoscenza.

Opzioni di input

Puoi fornire gli URL al componente in due modi:

  • URL di testo:

    • Tipo di input: Message
    • Descrizione: Un elenco di link URL semplici da cui il componente deve recuperare i contenuti.
  • Record URL:

    • Tipo di input: UrlRecord
    • Descrizione: Un elenco di record URL strutturati, che possono includere metadati aggiuntivi.

Parametri avanzati di input

ParametroTipoDefaultDescrizione
Applica OCRBooleanofalseSe abilitato, applica OCR per estrarre testo dalle immagini nel documento.
Cache TTLDropdown2 settimanePer quanto tempo il contenuto deve essere memorizzato in cache, con opzioni da nessuna cache fino a 1 anno.
Da H1 se esisteBooleanotrueInizia l’estrazione dal tag H1 se presente, concentrandosi sul contenuto principale.
Carica da puntatoreBooleanotrueCarica il contenuto a partire dalla sezione più rilevante in base alla tua query.
Nascondi risorseBooleanofalseNasconde le risorse recuperate dall’output o dalla visualizzazione.
Max TokenIntero3000Imposta il numero massimo di token per il testo di output.
Salta ultima intestazioneBooleanotrueSalta l’ultima intestazione durante l’estrazione per un contenuto più lineare.
StrategiaDropdownIncludi stessa quantità da ogni documentoDetermina come combinare i contenuti: concatenare completamente o includere parti uguali da ciascun documento.
Esporta contenutiMulti-selectTuttiScegli quali elementi HTML esportare (H1-H6, Paragrafo).
Includi metadatiMulti-selectProdottoSpecifica quali campi di metadati includere (es. Prodotto, Autore, Sito web, ecc.).
VerboseBooleanofalseAbilita output dettagliato per debugging o informazioni.
Nome strumentoStringa(vuoto)Assegna facoltativamente un nome personalizzato allo strumento per il riferimento degli agenti.
Descrizione strumentoMultilinea(vuoto)Fornisci una descrizione per aiutare gli agenti a comprendere lo scopo dello strumento.

Output

URL Retriever fornisce i suoi output in diversi formati, permettendo un’integrazione flessibile con vari processi AI:

Nome OutputTipoDescrizione
DocumentiMessageIl contenuto processato dagli URL, pronto all’uso in flussi di lavoro orientati ai messaggi.
Documenti GrezziDocumentGli oggetti documento grezzi, non processati, per elaborazioni avanzate successive.
Documenti come StrumentoToolIl contenuto impacchettato come uno strumento, per permettere ai flussi agent-based di utilizzarlo.

Perché usare URL Retriever?

  • Integra conoscenza esterna: Porta senza sforzo informazioni web nelle tue applicazioni AI, come chatbot, motori di ricerca o knowledge base.
  • Estrazione personalizzabile: Affina quali contenuti e metadati vuoi, controlla la quantità di dati ed utilizza l’OCR per le immagini.
  • Prestazioni & Efficienza: Utilizza la cache per evitare download ridondanti e limita i token di output per migliorare le prestazioni.
  • Formati di output flessibili: Scegli il formato di output che meglio si adatta al prossimo step del tuo flusso di lavoro: documento strutturato, messaggio o strumento.

Esempi d’uso

  • Creazione di agenti conversazionali basati sulla conoscenza che rispondono usando contenuti web aggiornati.
  • Aggregazione di dati di prodotto da siti e-commerce per confronti o analisi.
  • Monitoraggio e analisi di articoli di blog o notizie su argomenti o keyword specifici.
  • Estrazione di informazioni da pagine web con media misti (testo e immagini).
CaratteristicaDescrizione
Recupera URLRecupera e processa contenuti web dagli URL forniti.
Supporto OCREstrae testo dalle immagini nei documenti se abilitato.
Estrazione metadatiOpzionalmente include metadati come autore, prodotto o tipi schema.org.
Output personalizzabileSeleziona quali elementi HTML o metadati esportare.
CacheDurate di cache configurabili per l’efficienza.
Tipi di output multipliSupporta output come messaggio, documento grezzo e strumento per flessibilità nei flussi.

Il URL Retriever è un ponte potente e flessibile tra i contenuti web e i tuoi flussi di lavoro AI, offrendo controllo granulare sull’estrazione e l’integrazione dei contenuti.

Esempi di modelli di flusso che utilizzano il componente URL Retriever

Per aiutarti a iniziare rapidamente, abbiamo preparato diversi modelli di flusso di esempio che mostrano come utilizzare efficacemente il componente URL Retriever. Questi modelli presentano diversi casi d'uso e best practice, rendendo più facile per te comprendere e implementare il componente nei tuoi progetti.

Domande frequenti

Cosa fa il componente URL Retriever?

URL Retriever recupera e processa contenuti da link web specificati, rendendo testo e metadati da documenti online disponibili per il tuo flusso di lavoro o agente AI.

Può estrarre contenuti da immagini o PDF?

Sì, attivando l'opzione OCR, il componente può estrarre testo da documenti basati su immagini o PDF scansionati.

Quali tipi di output fornisce?

Restituisce documenti processati come messaggi di testo, oggetti documento grezzi, o come strumento per i flussi di lavoro degli agenti, a seconda della configurazione.

Come funziona la cache in URL Retriever?

Puoi impostare per quanto tempo i contenuti recuperati vengono memorizzati in cache, riducendo i download ripetuti e velocizzando i tuoi flussi.

Posso controllare quali parti di una pagina web vengono estratte?

Sì, puoi specificare quali intestazioni, paragrafi o campi di metadati includere nell'output, permettendo un'estrazione mirata.

È adatto per costruire bot di conoscenza o automazioni di dati web?

Assolutamente. URL Retriever è essenziale per qualsiasi automazione o chatbot che deve leggere, processare o riassumere contenuti web in tempo reale.

Prova FlowHunt URL Retriever

Potenzia i tuoi flussi di lavoro integrando contenuti web in tempo reale. Estrai, processa e utilizza dati dagli URL con facilità.

Scopri di più