Programarea crawl-urilor automate ale site-urilor web

Programarea crawl-urilor automate ale site-urilor web

Schedules Crawling AI Agent Knowledge Base

Funcția de Programare a FlowHunt îți permite să automatizezi crawling-ul și indexarea site-urilor web, sitemap-urilor, domeniilor și canalelor YouTube. Astfel, baza de cunoștințe a Agentului tău AI rămâne actualizată cu conținut nou, fără intervenție manuală.

Cum funcționează programarea

  • Crawling automatizat:
    Programează crawl-uri recurente care rulează zilnic, săptămânal, lunar sau anual pentru a menține baza de cunoștințe actualizată.

  • Tipuri multiple de crawl:
    Poți alege între crawl de domeniu, crawl de sitemap, crawl de URL sau crawl de canal YouTube, în funcție de sursa ta de conținut.

  • Opțiuni avansate:
    Configurează randarea cu browser, urmărirea link-urilor, capturi de ecran, rotația proxy-urilor și filtrarea URL-urilor pentru rezultate optime.

Opțiuni de configurare a programelor

Setări de bază

Tip: Alege metoda de crawling:

  • Crawl domeniu: Crawl întregul domeniu în mod sistematic
  • Crawl sitemap: Folosește sitemap.xml al site-ului pentru crawling eficient
  • Crawl URL: Țintește anumite URL-uri sau pagini
  • Crawl canal YouTube: Indexează conținut video din canale YouTube

Frecvență: Setează cât de des rulează crawl-ul:

  • Zilnic, Săptămânal, Lunar sau Anual

URL: Introdu URL-ul țintă, domeniul sau canalul YouTube de crawlat

Opțiuni avansate de crawling

Cu browser (credit suplimentar): Activează când crawlezi site-uri web bogate în JavaScript ce necesită randare completă cu browserul. Această opțiune este mai lentă și mai costisitoare, dar necesară pentru site-urile care încarcă dinamic conținutul.

Urmărește link-uri (credit suplimentar): Procesează URL-uri suplimentare găsite în pagini. Util când sitemap-ul nu conține toate URL-urile, dar poate consuma multe credite deoarece crawlează și link-urile descoperite.

Fă captură de ecran (credit suplimentar): Realizează capturi vizuale în timpul crawling-ului. Util pentru site-urile fără og:images sau cele care necesită context vizual pentru procesarea AI.

Cu rotație proxy (credit suplimentar): Rotește adresa IP la fiecare cerere pentru a evita detecția de către firewall-uri de aplicație web (WAF) sau sisteme anti-bot.

Filtrarea URL-urilor

Sări peste URL-urile care se potrivesc: Introdu șiruri (câte unul pe linie) pentru a exclude din crawling URL-urile ce conțin aceste modele. Exemplu:

/admin/
/login
.pdf

Exemplu: Crawling flowhunt.io cu /blog exclus

Acest exemplu explică ce se întâmplă când utilizezi funcția Programări a FlowHunt pentru a crawla domeniul flowhunt.io cu setarea /blog ca URL de sărit în setările de filtrare URL.

Setări de configurare

  • Tip: Crawl domeniu
  • URL: flowhunt.io
  • Frecvență: Săptămânal
  • Filtrare URL (Sări peste URL-urile care se potrivesc): /blog
  • Alte setări: Implicit (fără randare cu browser, fără urmărire link-uri, fără capturi de ecran, fără rotație proxy)

Ce se întâmplă

  1. Inițierea crawl-ului:

    • FlowHunt pornește crawlarea domeniului flowhunt.io, țintind toate paginile accesibile de pe domeniu (ex: flowhunt.io, flowhunt.io/features, flowhunt.io/pricing etc.).
  2. Aplicarea filtrării URL:

    • Crawlerul evaluează fiecare URL descoperit după modelul de excludere /blog.
    • Orice URL care conține /blog (ex: flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) este exclus din crawling.
    • Alte URL-uri, precum flowhunt.io/about, flowhunt.io/contact sau flowhunt.io/docs, sunt crawlate deoarece nu se potrivesc cu modelul /blog.
  3. Execuția crawl-ului:

    • Crawlerul procesează sistematic URL-urile rămase pe flowhunt.io, indexând conținutul lor pentru baza ta de cunoștințe AI.
    • Deoarece randarea cu browser, urmărirea link-urilor, capturile de ecran și rotația proxy sunt dezactivate, crawling-ul este rapid și se concentrează doar pe conținutul static din URL-urile ne-excluse.
  4. Rezultat:

    • Baza de cunoștințe a Agentului tău AI este actualizată cu conținut nou din flowhunt.io, excluzând orice se află sub calea /blog.
    • Crawl-ul rulează săptămânal, asigurând că baza de cunoștințe rămâne actualizată cu pagini noi sau modificate (în afara /blog), fără intervenție manuală.

Indexează doar URL-urile care se potrivesc: Introdu șiruri (câte unul pe linie) pentru a crawla doar URL-urile ce conțin aceste modele. Exemplu:

/blog/
/articles/
/knowledge/

Exemplu de includere a URL-urilor potrivite

Setări de configurare

  • Tip: Crawl domeniu
  • URL: flowhunt.io
  • Frecvență: Săptămânal
  • Filtrare URL (Indexează doar URL-urile care se potrivesc):
    /blog/
    /articles/
    /knowledge/
    
  • Alte setări: Implicit (fără randare cu browser, fără urmărire link-uri, fără capturi de ecran, fără rotație proxy)
  1. Inițierea crawl-ului:

    • FlowHunt pornește crawlarea domeniului flowhunt.io, țintind toate paginile accesibile de pe domeniu (ex: flowhunt.io, flowhunt.io/blog, flowhunt.io/articles etc.).
  2. Aplicarea filtrării URL:

    • Crawlerul evaluează fiecare URL descoperit după modelele /blog/, /articles/ și /knowledge/.
    • Doar URL-urile care conțin aceste modele (ex: flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) sunt incluse în crawling.
    • Alte URL-uri, precum flowhunt.io/about, flowhunt.io/pricing sau flowhunt.io/contact, sunt excluse deoarece nu se potrivesc cu modelele specificate.
  3. Execuția crawl-ului:

    • Crawlerul procesează doar URL-urile care se potrivesc cu /blog/, /articles/ sau /knowledge/, indexând conținutul acestora pentru baza ta de cunoștințe AI.
    • Deoarece randarea cu browser, urmărirea link-urilor, capturile de ecran și rotația proxy sunt dezactivate, crawling-ul este rapid și se concentrează doar pe conținutul static din aceste URL-uri incluse.
  4. Rezultat:

    • Baza de cunoștințe a Agentului tău AI este actualizată cu conținut nou de pe paginile flowhunt.io aflate sub căile /blog/, /articles/ și /knowledge/.
    • Crawl-ul rulează săptămânal, asigurând că baza de cunoștințe rămâne actualizată cu pagini noi sau modificate în aceste secțiuni, fără intervenție manuală.

Header-e personalizate: Adaugă header-e HTTP personalizate pentru cererile de crawling. Formatează ca HEADER=Valoare (câte unul pe linie): Această funcționalitate este extrem de utilă pentru a adapta crawling-ul la cerințele specifice ale unui site web. Activând header-ele personalizate, utilizatorii pot autentifica cererile pentru a accesa conținut restricționat, pot imita anumite comportamente de browser sau se pot conforma politicilor API sau de acces ale unui site. De exemplu, setarea unui header Authorization poate permite accesul la pagini protejate, iar un User-Agent personalizat poate evita detecția bot-ului sau poate asigura compatibilitatea cu site-urile care restricționează anumite crawlere. Această flexibilitate asigură colectarea de date mai precisă și cuprinzătoare, facilitând indexarea conținutului relevant pentru baza de cunoștințe a unui Agent AI, respectând în același timp protocoalele de securitate sau acces ale site-ului.

MYHEADER=Orice valoare
Authorization=Bearer token123
User-Agent=Custom crawler

Cum creezi un program

  1. Navighează la Programe în dashboard-ul tău FlowHunt Navighează la Programe

  2. Apasă “Adaugă program nou” Apasă Adaugă program nou

  3. Configurează setările de bază:

    • Selectează tipul de crawl (Domeniu/Sitemap/URL/YouTube)
    • Setează frecvența (Zilnic/Săptămânal/Lunar/Anual)
    • Introdu URL-ul țintă
  4. Extinde opțiunile avansate dacă este necesar:

    • Activează randarea cu browser pentru site-urile cu mult JS
    • Configurează urmărirea link-urilor pentru crawling cuprinzător
    • Setează reguli de filtrare URL
      • Adaugă header-e personalizate dacă este nevoie Extinde opțiunile avansate
  5. Apasă “Adaugă program nou” pentru a activa

Recomandări de bune practici

Pentru majoritatea site-urilor:

  • Începe cu crawl de bază Sitemap sau Domeniu
  • Folosește setările implicite inițial
  • Adaugă opțiuni avansate doar dacă e nevoie

Pentru site-uri cu mult JavaScript:

  • Activează opțiunea “Cu browser”
  • Ia în considerare capturile de ecran pentru conținut vizual
  • Poate fi necesară rotația proxy dacă ești blocat

Pentru site-uri mari:

  • Folosește filtrarea URL pentru a te concentra pe conținut relevant
  • Setează frecvență potrivită pentru a echilibra actualizarea cu consumul de credite
  • Monitorizează consumul de credite pentru funcțiile avansate

Pentru e-commerce sau conținut dinamic:

  • Folosește frecvență Zilnică sau Săptămânală
  • Activează urmărirea link-urilor pentru pagini de produse
  • Ia în considerare header-e personalizate pentru conținut autenticat

Utilizarea creditelor

Funcțiile avansate consumă credite suplimentare:

  • Randarea cu browser crește timpul și costul de procesare
  • Urmărirea link-urilor multiplică numărul de pagini crawlate
  • Capturile de ecran adaugă costuri de procesare vizuală
  • Rotația proxy adaugă costuri de rețea

Monitorizează consumul de credite și ajustează programele în funcție de nevoile și bugetul tău.

Depanarea problemelor comune

Eșecuri la crawling:

  • Activează “Cu browser” pentru site-uri dependente de JavaScript
  • Adaugă “Cu rotație proxy” dacă ești blocat de WAF
  • Verifică header-ele personalizate pentru autentificare

Prea multe/prea puține pagini:

  • Folosește “Sări peste URL-urile care se potrivesc” pentru a exclude conținut nedorit
  • Folosește “Indexează doar URL-urile care se potrivesc” pentru a te concentra pe anumite secțiuni
  • Ajustează setările de urmărire a link-urilor

Conținut lipsă:

  • Activează “Urmărește link-uri” dacă sitemap-ul este incomplet
  • Verifică să nu fie regulile de filtrare URL prea restrictive
  • Asigură-te că URL-ul țintă este accesibil

Află mai multe