Plánování automatizovaných procházek webů

Plánování automatizovaných procházek webů

Schedules Crawling AI Agent Knowledge Base

Funkce Plánování ve FlowHunt vám umožňuje automatizovat procházení a indexaci webových stránek, sitemap, domén a YouTube kanálů. Díky tomu zůstává znalostní báze vašeho AI Agenta stále aktuální s novým obsahem bez nutnosti ručního zásahu.

Jak plánování funguje

  • Automatizované procházení:
    Nastavte opakované procházení, které poběží denně, týdně, měsíčně nebo ročně a udrží vaši znalostní bázi aktuální.

  • Různé typy procházení:
    Vyberte si z procházení domény, sitemap, konkrétního URL nebo YouTube kanálu podle zdroje vašeho obsahu.

  • Pokročilé možnosti:
    Nastavte vykreslování v prohlížeči, sledování odkazů, pořizování snímků obrazovky, rotaci proxy a filtrování URL pro co nejlepší výsledky.

Možnosti konfigurace plánování

Základní nastavení

Typ: Vyberte metodu procházení:

  • Procházení domény: Systematicky prochází celou doménu
  • Procházení sitemap: Používá soubor sitemap.xml pro efektivní procházení
  • Procházení URL: Zaměří se na konkrétní URL nebo stránky
  • Procházení YouTube kanálu: Indexuje videoobsah z YouTube kanálů

Frekvence: Nastavte, jak často se bude procházení spouštět:

  • Denně, Týdně, Měsíčně nebo Ročně

URL: Zadejte cílovou adresu URL, doménu nebo YouTube kanál k procházení

Pokročilé možnosti procházení

S prohlížečem (za příplatek): Povolte při procházení webů s těžkým využitím JavaScriptu, které vyžadují plné vykreslení v prohlížeči. Tato možnost je pomalejší a dražší, ale nezbytná pro weby, které načítají obsah dynamicky.

Sledovat odkazy (za příplatek): Zpracovává další URL nalezené na stránkách. Užitečné, když sitemap neobsahuje všechny URL, ale může spotřebovat více kreditů, protože prochází objevené odkazy.

Pořídit snímek obrazovky (za příplatek): Pořizuje vizuální snímky během procházení. Pomáhá u webů bez og:images nebo tam, kde je třeba vizuální kontext pro AI zpracování.

S rotací proxy (za příplatek): Rotuje IP adresy při každém požadavku, aby se zabránilo detekci Web Application Firewally (WAF) nebo anti-bot systémy.

Filtrování URL

Přeskočit odpovídající URL: Zadejte řetězce (každý na jeden řádek) pro vyloučení URL obsahujících tyto vzory z procházení. Příklad:

/admin/
/login
.pdf

Příklad: Procházení flowhunt.io s /blog vyloučeným

Tento příklad vysvětluje, co se stane, když použijete funkci Plánování ve FlowHunt k procházení domény flowhunt.io a nastavíte /blog jako odpovídající URL k přeskočení v nastavení filtrování URL.

Nastavení konfigurace

  • Typ: Procházení domény
  • URL: flowhunt.io
  • Frekvence: Týdně
  • Filtrování URL (Přeskočit odpovídající URL): /blog
  • Ostatní nastavení: Výchozí (bez vykreslování v prohlížeči, bez sledování odkazů, bez snímků obrazovky, bez rotace proxy)

Co se stane

  1. Zahájení procházení:

    • FlowHunt spustí procházení domény flowhunt.io a zaměří se na všechny dostupné stránky na doméně (např. flowhunt.io, flowhunt.io/features, flowhunt.io/pricing atd.).
  2. Aplikace filtrování URL:

    • Prohledávač vyhodnocuje každé objevené URL podle vzoru pro přeskočení /blog.
    • Každá URL obsahující /blog (např. flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) je z procházení vyloučena.
    • Ostatní URL, jako flowhunt.io/about, flowhunt.io/contact nebo flowhunt.io/docs jsou procházeny, protože neodpovídají vzoru /blog.
  3. Provedení procházení:

    • Prohledávač systematicky zpracuje zbývající URL na flowhunt.io a indexuje jejich obsah pro znalostní bázi vašeho AI Agenta.
    • Protože vykreslování v prohlížeči, sledování odkazů, snímky obrazovky a rotace proxy jsou vypnuté, procházení je nenáročné a zaměřuje se pouze na statický obsah z nezakázaných URL.
  4. Výsledek:

    • Znalostní báze vašeho AI Agenta je aktualizována o nový obsah z flowhunt.io, s výjimkou všeho pod cestou /blog.
    • Procházení běží týdně a zajišťuje, že znalostní báze zůstává aktuální s novými nebo aktualizovanými stránkami (mimo /blog) bez nutnosti ručního zásahu.

Indexovat pouze odpovídající URL: Zadejte řetězce (každý na jeden řádek), abyste procházeli pouze URL obsahující tyto vzory. Příklad:

/blog/
/articles/
/knowledge/

Příklad zahrnutí odpovídajících URL

Nastavení konfigurace

  • Typ: Procházení domény
  • URL: flowhunt.io
  • Frekvence: Týdně
  • Filtrování URL (Indexovat pouze odpovídající URL):
    /blog/
    /articles/
    /knowledge/
    
  • Ostatní nastavení: Výchozí (bez vykreslování v prohlížeči, bez sledování odkazů, bez snímků obrazovky, bez rotace proxy)
  1. Zahájení procházení:

    • FlowHunt spustí procházení domény flowhunt.io a zaměří se na všechny dostupné stránky na doméně (např. flowhunt.io, flowhunt.io/blog, flowhunt.io/articles atd.).
  2. Aplikace filtrování URL:

    • Prohledávač vyhodnocuje každé objevené URL podle vzorů pro indexaci /blog/, /articles/ a /knowledge/.
    • Pouze URL obsahující tyto vzory (např. flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) jsou do procházení zařazeny.
    • Ostatní URL, jako flowhunt.io/about, flowhunt.io/pricing nebo flowhunt.io/contact, jsou vyloučeny, protože neodpovídají zadaným vzorům.
  3. Provedení procházení:

    • Prohledávač zpracuje pouze URL odpovídající /blog/, /articles/ nebo /knowledge/ a indexuje jejich obsah pro znalostní bázi vašeho AI Agenta.
    • Protože vykreslování v prohlížeči, sledování odkazů, snímky obrazovky a rotace proxy jsou vypnuté, procházení je nenáročné a zaměřuje se pouze na statický obsah z vybraných URL.
  4. Výsledek:

    • Znalostní báze vašeho AI Agenta je aktualizována o nový obsah ze stránek flowhunt.io pod cestami /blog/, /articles/ a /knowledge/.
    • Procházení běží týdně a zajišťuje, že znalostní báze zůstává aktuální s novými nebo aktualizovanými stránkami v těchto sekcích bez ručního zásahu.

Vlastní hlavičky: Přidejte vlastní HTTP hlavičky pro požadavky při procházení. Formátujte jako HLAVIČKA=Hodnota (každý na jeden řádek): Tato funkce je velmi užitečná pro přizpůsobení procházení specifickým požadavkům webu. Povolením vlastních hlaviček mohou uživatelé autentizovat požadavky pro přístup k omezenému obsahu, napodobit chování konkrétního prohlížeče nebo splnit API či přístupové zásady webu. Například nastavení hlavičky Authorization umožní přístup k chráněným stránkám, vlastní User-Agent pomůže obejít detekci botů nebo zajistí kompatibilitu s weby, které omezují některé prohledávače. Tato flexibilita zajistí přesnější a komplexnější sběr dat, což usnadňuje indexaci relevantního obsahu do znalostní báze AI Agenta při dodržení bezpečnostních nebo přístupových pravidel webu.

MYHEADER=Jakákoli hodnota
Authorization=Bearer token123
User-Agent=Custom crawler

Jak vytvořit plán

  1. Přejděte na Schedules ve svém FlowHunt dashboardu
    Navigate to Schedules

  2. Klikněte na “Add new Schedule”
    Click Add new Schedule

  3. Nastavte základní parametry:

    • Vyberte typ procházení (Doména/Sitemap/URL/YouTube)
    • Nastavte frekvenci (Denně/Týdně/Měsíčně/Ročně)
    • Zadejte cílové URL
  4. Rozbalte Pokročilé možnosti pokud je potřebujete:

    • Povolit vykreslování v prohlížeči pro weby s JavaScriptem
    • Nastavit sledování odkazů pro důkladné procházení
    • Nastavit pravidla pro filtrování URL
      • Přidejte vlastní hlavičky, pokud je vyžadováno Expand Advanced options
  5. Klikněte na “Add new Schedule” pro aktivaci

Osvědčené postupy

Pro většinu webů:

  • Začněte se základním procházením Sitemap nebo Domény
  • Nejprve použijte výchozí nastavení
  • Pokročilé možnosti přidávejte jen pokud je to potřeba

Pro weby náročné na JavaScript:

  • Povolit možnost “S prohlížečem”
  • Zvažte pořizování snímků obrazovky pro vizuální obsah
  • Může být nutná rotace proxy při blokaci

Pro rozsáhlé weby:

  • Použijte filtrování URL pro zaměření na relevantní obsah
  • Nastavte vhodnou frekvenci pro vyvážení aktuálnosti a spotřeby kreditů
  • Sledujte spotřebu kreditů při použití pokročilých funkcí

Pro e-shopy nebo dynamický obsah:

  • Použijte denní nebo týdenní frekvenci
  • Povolit sledování odkazů pro stránky produktů
  • Zvažte vlastní hlavičky pro autentizovaný obsah

Spotřeba kreditů

Pokročilé funkce spotřebovávají další kredity:

  • Vykreslování v prohlížeči zvyšuje čas zpracování a cenu
  • Sledování odkazů násobí počet procházených stránek
  • Snímky obrazovky přidávají vizuální zpracování navíc
  • Rotace proxy přidává síťovou režii

Sledujte svou spotřebu kreditů a upravte plánování podle svých potřeb a rozpočtu.

Řešení běžných problémů

Selhání procházení:

  • Povolit “S prohlížečem” pro weby závislé na JavaScriptu
  • Přidat “S rotací proxy” při blokaci WAF
  • Zkontrolujte vlastní hlavičky pro autentizaci

Příliš mnoho/málo stránek:

  • Použijte “Přeskočit odpovídající URL” pro vyloučení nechtěného obsahu
  • Použijte “Indexovat pouze odpovídající URL” pro zaměření na konkrétní sekce
  • Upravte nastavení sledování odkazů

Chybějící obsah:

  • Povolit “Sledovat odkazy”, pokud je sitemap neúplná
  • Zkontrolujte, zda nejsou pravidla pro filtrování URL příliš restriktivní
  • Ověřte, že cílové URL je přístupné

Zjistit více

Plánovače
Plánovače

Plánovače

Funkce Plánovače ve FlowHunt vám umožňuje pravidelně procházet domény a kanály YouTube, aby vaši chatboti a toky zůstávali aktuální s nejnovějšími informacemi. ...

2 min čtení
AI Schedules +4