Pianificazione di scansioni automatiche dei siti web

La funzione Pianificazioni di FlowHunt ti permette di automatizzare la scansione e l’indicizzazione di siti web, sitemap, domini e canali YouTube. In questo modo la knowledge base del tuo Agente AI resta aggiornata con contenuti freschi senza interventi manuali.

Come funziona la pianificazione

Scansione automatica:
Imposta scansioni ricorrenti che si eseguono ogni giorno, settimana, mese o anno per mantenere aggiornata la knowledge base.
Tipi di scansione multipli:
Scegli tra scansione del dominio, scansione della sitemap, scansione di URL o scansione di canale YouTube in base alla fonte dei tuoi contenuti.
Opzioni avanzate:
Configura rendering del browser, inseguimento dei link, screenshot, rotazione proxy e filtraggio degli URL per risultati ottimali.

Opzioni di configurazione della pianificazione

Impostazioni di base

Tipo: Scegli il metodo di scansione:

Scansione dominio: Scansiona sistematicamente un intero dominio
Scansione sitemap: Usa la sitemap.xml del sito per una scansione efficiente
Scansione URL: Targetizza URL o pagine specifiche
Scansione canale YouTube: Indicizza i contenuti video dei canali YouTube

Frequenza: Imposta ogni quanto eseguire la scansione:

Giornaliera, Settimanale, Mensile o Annuale

URL: Inserisci l’URL di destinazione, dominio o canale YouTube da scansionare

Opzioni avanzate di scansione

Con Browser (crediti extra): Attiva questa opzione quando scansioni siti web ricchi di JavaScript che richiedono il rendering completo del browser. È più lenta e costosa, ma necessaria per siti che caricano i contenuti in modo dinamico.

Segui i link (crediti extra): Processa ulteriori URL trovati all’interno delle pagine. Utile quando le sitemap non contengono tutti gli URL, ma può consumare molti crediti poiché scansiona anche i link scoperti.

Cattura screenshot (crediti extra): Acquisisci screenshot visivi durante la scansione. Utile per siti senza og:images o che richiedono contesto visivo per l’elaborazione AI.

Con rotazione proxy (crediti extra): Ruota gli indirizzi IP per ogni richiesta per evitare i Web Application Firewall (WAF) o sistemi anti-bot.

Filtraggio URL

Salta URL corrispondenti: Inserisci stringhe (una per riga) per escludere dalla scansione gli URL che contengono questi pattern. Esempio:

/admin/
/login
.pdf

Esempio: scansione di flowhunt.io saltando /blog

Questo esempio spiega cosa succede quando usi la funzione Pianificazioni di FlowHunt per scansionare il dominio flowhunt.io impostando /blog come pattern di URL da saltare nelle impostazioni di filtraggio URL.

Configurazione

Tipo: Scansione dominio
URL: flowhunt.io
Frequenza: Settimanale
Filtraggio URL (Salta URL corrispondenti): /blog
Altre impostazioni: Default (senza rendering browser, senza inseguimento link, senza screenshot, senza rotazione proxy)

Cosa succede

Inizio scansione:
- FlowHunt avvia una scansione dominio di flowhunt.io, targetizzando tutte le pagine accessibili del dominio (es. flowhunt.io, flowhunt.io/features, flowhunt.io/pricing, ecc.).
Applicazione filtraggio URL:
- Il crawler valuta ogni URL scoperto rispetto al pattern di skip /blog.
- Qualsiasi URL contenente /blog (es. flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) viene escluso dalla scansione.
- Gli altri URL, come flowhunt.io/about, flowhunt.io/contact o flowhunt.io/docs, vengono scansionati perché non corrispondono al pattern /blog.
Esecuzione scansione:
- Il crawler processa sistematicamente gli URL rimanenti su flowhunt.io, indicizzando i loro contenuti nella knowledge base del tuo Agente AI.
- Poiché rendering browser, inseguimento link, screenshot e rotazione proxy sono disattivati, la scansione è leggera e si concentra solo sui contenuti statici degli URL non esclusi.
Risultato:
- La knowledge base del tuo Agente AI si aggiorna con contenuti freschi da flowhunt.io, escludendo tutto ciò che è sotto il percorso /blog.
- La scansione viene eseguita settimanalmente, così la knowledge base resta aggiornata con le nuove o aggiornate pagine (al di fuori di /blog) senza intervento manuale.

Indicizza solo URL corrispondenti: Inserisci stringhe (una per riga) per scansionare solo gli URL che contengono questi pattern. Esempio:

/blog/
/articles/
/knowledge/

Esempio di inclusione di URL corrispondenti

Configurazione

Tipo: Scansione dominio
URL: flowhunt.io
Frequenza: Settimanale
Filtraggio URL (Indicizza solo URL corrispondenti):
```
/blog/
/articles/
/knowledge/
```
Altre impostazioni: Default (senza rendering browser, senza inseguimento link, senza screenshot, senza rotazione proxy)

Inizio scansione:
- FlowHunt avvia una scansione dominio di flowhunt.io, targetizzando tutte le pagine accessibili del dominio (es. flowhunt.io, flowhunt.io/blog, flowhunt.io/articles, ecc.).
Applicazione filtraggio URL:
- Il crawler valuta ogni URL scoperto rispetto ai pattern di indicizzazione /blog/, /articles/ e /knowledge/.
- Soltanto gli URL che contengono questi pattern (es. flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) sono inclusi nella scansione.
- Gli altri URL, come flowhunt.io/about, flowhunt.io/pricing o flowhunt.io/contact, sono esclusi perché non corrispondono ai pattern specificati.
Esecuzione scansione:
- Il crawler processa solo gli URL che corrispondono a /blog/, /articles/ o /knowledge/, indicizzando i loro contenuti nella knowledge base del tuo Agente AI.
- Poiché rendering browser, inseguimento link, screenshot e rotazione proxy sono disattivati, la scansione è leggera e si concentra solo sui contenuti statici degli URL inclusi.
Risultato:
- La knowledge base del tuo Agente AI viene aggiornata con i contenuti freschi delle pagine di flowhunt.io sotto i percorsi /blog/, /articles/ e /knowledge/.
- La scansione viene eseguita settimanalmente, così la knowledge base resta aggiornata con nuove o aggiornate pagine all’interno di queste sezioni senza intervento manuale.

Header personalizzati: Aggiungi header HTTP personalizzati per le richieste di scansione. Il formato è HEADER=Valore (uno per riga): Questa funzione è molto utile per adattare le scansioni alle esigenze specifiche di determinati siti web. Abilitando header personalizzati, gli utenti possono autenticare le richieste per accedere a contenuti riservati, simulare specifici comportamenti del browser o rispettare le policy API o di accesso di un sito. Ad esempio, impostando un header Authorization puoi ottenere accesso a pagine protette, mentre uno User-Agent personalizzato può aiutare a evitare il rilevamento come bot o garantire compatibilità con siti che limitano certi crawler. Questa flessibilità permette una raccolta dati più accurata e completa, facilitando l’indicizzazione di contenuti rilevanti nella knowledge base dell’Agente AI nel rispetto delle policy di sicurezza o accesso del sito.

MYHEADER=Qualsiasi valore
Authorization=Bearer token123
User-Agent=Custom crawler

Come creare una pianificazione

Vai su Pianificazioni nella dashboard di FlowHunt
Clicca su “Aggiungi nuova pianificazione”
Configura le impostazioni di base:
- Seleziona il tipo di scansione (Dominio/Sitemap/URL/YouTube)
- Imposta la frequenza (Giornaliera/Settimanale/Mensile/Annuale)
- Inserisci l’URL di destinazione
Espandi le opzioni avanzate se necessario:
- Abilita il rendering browser per siti pesanti in JS
- Configura l’inseguimento link per una scansione più completa
- Imposta le regole di filtraggio URL
  - Aggiungi header personalizzati se richiesto
Clicca su “Aggiungi nuova pianificazione” per attivare