Plánovanie automatizovaných prehľadávaní webstránok

Plánovanie automatizovaných prehľadávaní webstránok

Schedules Crawling AI Agent Knowledge Base

Funkcia Harmonogram v FlowHunt vám umožňuje automatizovať prehľadávanie a indexovanie webstránok, sitemap, domén a YouTube kanálov. Vďaka tomu zostáva vedomostná databáza vášho AI Agenta vždy aktuálna s najnovším obsahom – bez manuálneho zásahu.

Ako funguje plánovanie

  • Automatizované prehľadávanie:
    Nastavte opakujúce sa prehľadávania, ktoré bežia denne, týždenne, mesačne alebo ročne, aby ste udržali vašu databázu aktuálnu.

  • Viacero typov prehľadávania:
    Vyberte si z prehľadávania domény, sitemap, konkrétnej URL alebo YouTube kanála podľa zdroja vášho obsahu.

  • Pokročilé možnosti:
    Nastavte renderovanie v prehliadači, sledovanie odkazov, snímky obrazovky, rotáciu proxy a filtrovanie URL pre najlepšie výsledky.

Možnosti konfigurácie harmonogramu

Základné nastavenia

Typ: Vyberte si spôsob prehľadávania:

  • Prehľadávanie domény: Systematické prehľadanie celej domény
  • Prehľadávanie sitemap: Efektívne prehľadávanie pomocou sitemap.xml webu
  • Prehľadávanie URL: Zamerajte sa na konkrétne adresy alebo stránky
  • Prehľadávanie YouTube kanála: Indexujte video obsah z YouTube kanálov

Frekvencia: Nastavte, ako často sa má prehľadávanie spúšťať:

  • Denne, Týždenne, Mesačne alebo Ročne

URL: Zadajte cieľovú adresu (URL, doménu alebo YouTube kanál) na prehľadávanie

Pokročilé možnosti prehľadávania

S prehliadačom (extra kredity): Povoľte pri prehľadávaní webstránok s veľkým využitím JavaScriptu, ktoré vyžadujú úplné renderovanie. Táto možnosť je pomalšia a drahšia, ale nevyhnutná pri stránkach, ktoré načítavajú obsah dynamicky.

Sledovať odkazy (extra kredity): Spracuje ďalšie adresy nájdené na stránkach. Užitočné, ak sitemap neobsahuje všetky adresy, no môže výrazne spotrebovať kredity, keďže prehľadáva všetky objavené odkazy.

Snímať obrazovku (extra kredity): Urobí vizuálne snímky počas prehľadávania. Vhodné pre weby bez og:images alebo ak je potrebný vizuálny kontext pre AI.

S rotáciou proxy (extra kredity): Pri každej požiadavke mení IP adresu, čím sa vyhnete detekcii zo strany Web Application Firewallov (WAF) alebo anti-bot systémov.

Filtrovanie URL

Preskočiť zodpovedajúce adresy: Zadajte reťazce (každý na samostatný riadok), aby ste vylúčili adresy obsahujúce tieto vzory z prehľadávania. Príklad:

/admin/
/login
.pdf

Príklad: Prehľadávanie flowhunt.io s vylúčením /blog

Tento príklad vysvetľuje, čo sa stane, ak použijete funkciu Harmonogram v FlowHunt na prehľadávanie domény flowhunt.io a v nastaveniach filtrovania URL zadáte /blog ako vzor na preskočenie.

Nastavenia konfigurácie

  • Typ: Prehľadávanie domény
  • URL: flowhunt.io
  • Frekvencia: Týždenne
  • Filtrovanie URL (Preskočiť zodpovedajúce adresy): /blog
  • Ostatné nastavenia: Predvolené (bez renderovania v prehliadači, bez sledovania odkazov, bez snímok, bez rotácie proxy)

Čo sa stane

  1. Spustenie prehľadávania:

    • FlowHunt začne prehľadávať doménu flowhunt.io a zacieli na všetky dostupné stránky (napr. flowhunt.io, flowhunt.io/features, flowhunt.io/pricing atď.).
  2. Aplikácia filtrovania URL:

    • Prehľadávač vyhodnotí každú objavenú adresu podľa vzoru /blog.
    • Každá adresa obsahujúca /blog (napr. flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) je vylúčená z prehľadávania.
    • Ostatné adresy, ako flowhunt.io/about, flowhunt.io/contact alebo flowhunt.io/docs, sa prehľadávajú, keďže neobsahujú vzor /blog.
  3. Prehľadávanie:

    • Prehľadávač postupne spracuje všetky zostávajúce adresy na flowhunt.io a zaindexuje ich obsah do vedomostnej databázy vášho AI Agenta.
    • Keďže renderovanie v prehliadači, sledovanie odkazov, snímky a rotácia proxy sú vypnuté, prehľadávanie je rýchle a zamerané len na statický obsah z nevynechaných adries.
  4. Výsledok:

    • Vedomostná databáza AI Agenta je aktualizovaná o nový obsah z flowhunt.io, pričom čokoľvek pod cestou /blog je vynechané.
    • Prehľadávanie beží týždenne, takže databáza zostáva aktuálna s novými alebo aktualizovanými stránkami (okrem /blog) bez manuálneho zásahu.

Indexovať len zodpovedajúce adresy: Zadajte reťazce (každý na samostatný riadok), aby sa prehľadávali len adresy obsahujúce tieto vzory. Príklad:

/blog/
/articles/
/knowledge/

Príklad zahrnutia zodpovedajúcich adries

Nastavenia konfigurácie

  • Typ: Prehľadávanie domény
  • URL: flowhunt.io
  • Frekvencia: Týždenne
  • Filtrovanie URL (Indexovať len zodpovedajúce adresy):
    /blog/
    /articles/
    /knowledge/
    
  • Ostatné nastavenia: Predvolené (bez renderovania v prehliadači, bez sledovania odkazov, bez snímok, bez rotácie proxy)
  1. Spustenie prehľadávania:

    • FlowHunt začne prehľadávať doménu flowhunt.io a zacieli na všetky dostupné stránky (napr. flowhunt.io, flowhunt.io/blog, flowhunt.io/articles atď.).
  2. Aplikácia filtrovania URL:

    • Prehľadávač vyhodnotí každú objavenú adresu podľa vzorov /blog/, /articles/ a /knowledge/.
    • Iba adresy obsahujúce tieto vzory (napr. flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) sú zahrnuté do prehľadávania.
    • Ostatné adresy, ako flowhunt.io/about, flowhunt.io/pricing alebo flowhunt.io/contact, sú vylúčené, pretože nespĺňajú zadané vzory.
  3. Prehľadávanie:

    • Prehľadávač spracuje len adresy zodpovedajúce /blog/, /articles/ alebo /knowledge/ a zaindexuje ich obsah do vedomostnej databázy vášho AI Agenta.
    • Keďže renderovanie v prehliadači, sledovanie odkazov, snímky a rotácia proxy sú vypnuté, prehľadávanie je rýchle a zamerané len na statický obsah z vybraných adries.
  4. Výsledok:

    • Vedomostná databáza AI Agenta je aktualizovaná o nový obsah zo stránok flowhunt.io pod cestami /blog/, /articles/ a /knowledge/.
    • Prehľadávanie beží týždenne, takže databáza je vždy aktuálna s novými alebo upravenými stránkami v týchto sekciách bez manuálneho zásahu.

Vlastné hlavičky: Pridajte vlastné HTTP hlavičky pre požiadavky prehľadávania. Formátujte ako HLAVIČKA=Hodnota (každý na samostatný riadok): Táto funkcia je mimoriadne užitočná na prispôsobenie prehľadávania špecifickým požiadavkám webstránky. Povolením vlastných hlavičiek môžete autentifikovať požiadavky na prístup k obmedzenému obsahu, napodobniť správanie konkrétnych prehliadačov alebo splniť požiadavky API či prístupových politík webu. Napríklad nastavením Authorization hlavičky získate prístup k chráneným stránkam, vlastný User-Agent pomôže vyhnúť sa detekcii botov alebo zabezpečí kompatibilitu s webmi, ktoré obmedzujú určité prehľadávače. Táto flexibilita umožňuje presnejší a komplexnejší zber dát a uľahčuje indexáciu relevantného obsahu pre vedomostnú databázu AI Agenta s dodržaním bezpečnostných a prístupových pravidiel webu.

MYHEADER=Ľubovoľná hodnota
Authorization=Bearer token123
User-Agent=Custom crawler

Ako vytvoriť harmonogram

  1. Prejdite do sekcie Harmonogramy vo vašom FlowHunt dashboarde
    Prejdite do sekcie Harmonogramy

  2. Kliknite na “Pridať nový harmonogram”
    Kliknite na Pridať nový harmonogram

  3. Nastavte základné nastavenia:

    • Vyberte typ prehľadávania (Doména/Sitemap/URL/YouTube)
    • Nastavte frekvenciu (Denne/Týždenne/Mesačne/Ročne)
    • Zadajte cieľovú URL
  4. Rozbaľte Pokročilé možnosti v prípade potreby:

    • Povoliť renderovanie v prehliadači pre stránky s JS
    • Nastavte sledovanie odkazov pre dôkladné prehľadávanie
    • Nastavte pravidlá filtrovania URL
      • Pridajte vlastné hlavičky, ak je to potrebné Rozbaľte Pokročilé možnosti
  5. Kliknite na “Pridať nový harmonogram” na aktiváciu

Odporúčané postupy

Pre väčšinu webstránok:

  • Začnite so základným prehľadávaním sitemap alebo domény
  • Najskôr použite predvolené nastavenia
  • Pokročilé možnosti pridávajte len podľa potreby

Pre weby náročné na JavaScript:

  • Povoliť možnosť “S prehliadačom”
  • Zvážte snímanie obrazovky pre vizuálny obsah
  • Môže byť potrebná rotácia proxy pri blokovaní

Pre veľké weby:

  • Filtrovaním URL sa zamerajte na relevantný obsah
  • Nastavte vhodnú frekvenciu pre rovnováhu medzi aktuálnosťou a spotrebou kreditov
  • Sledujte spotrebu kreditov pri pokročilých funkciách

Pre e-shopy alebo dynamický obsah:

  • Nastavte dennú alebo týždennú frekvenciu
  • Povoliť sledovanie odkazov pre produktové stránky
  • Zvážte vlastné hlavičky pre autentifikovaný obsah

Spotreba kreditov

Pokročilé funkcie spotrebúvajú ďalšie kredity:

  • Renderovanie prehliadačom zvyšuje čas spracovania a cenu
  • Sledovaním odkazov sa násobí počet prehľadaných stránok
  • Snímky obrazovky pridávajú vizuálne spracovanie navyše
  • Rotácia proxy zvyšuje sieťovú záťaž

Sledujte svoju spotrebu kreditov a upravujte harmonogramy podľa vašich potrieb a rozpočtu.

Riešenie bežných problémov

Neúspešné prehľadávanie:

  • Povoliť “S prehliadačom” pre weby závislé od JavaScriptu
  • Pridať “S rotáciou proxy” ak ste blokovaní WAF
  • Skontrolujte vlastné hlavičky pre autentifikáciu

Priveľa/príliš málo stránok:

  • Použite “Preskočiť zodpovedajúce adresy” na vylúčenie nechceného obsahu
  • Použite “Indexovať len zodpovedajúce adresy” pre zameranie na konkrétne sekcie
  • Upravte nastavenia sledovania odkazov

Chýbajúci obsah:

  • Povoliť “Sledovať odkazy” ak je sitemap neúplná
  • Skontrolujte, či pravidlá filtrovania URL nie sú príliš prísne
  • Overte, či je cieľová URL dostupná

Zistiť viac

Plánovače
Plánovače

Plánovače

Funkcia Plánovače vo FlowHunt vám umožňuje pravidelne prehľadávať domény a YouTube kanály, vďaka čomu budú vaše chatboty a flowy vždy aktuálne s najnovšími info...

2 min čítania
AI Schedules +4