Plánování automatizovaných procházek webů

Schedules Crawling AI Agent Knowledge Base

Funkce Plánování ve FlowHunt vám umožňuje automatizovat procházení a indexaci webových stránek, sitemap, domén a YouTube kanálů. Díky tomu zůstává znalostní báze vašeho AI Agenta stále aktuální s novým obsahem bez nutnosti ručního zásahu.

Jak plánování funguje

  • Automatizované procházení:
    Nastavte opakované procházení, které poběží denně, týdně, měsíčně nebo ročně a udrží vaši znalostní bázi aktuální.

  • Různé typy procházení:
    Vyberte si z procházení domény, sitemap, konkrétního URL nebo YouTube kanálu podle zdroje vašeho obsahu.

  • Pokročilé možnosti:
    Nastavte vykreslování v prohlížeči, sledování odkazů, pořizování snímků obrazovky, rotaci proxy a filtrování URL pro co nejlepší výsledky.

Možnosti konfigurace plánování

Základní nastavení

Typ: Vyberte metodu procházení:

  • Procházení domény: Systematicky prochází celou doménu
  • Procházení sitemap: Používá soubor sitemap.xml pro efektivní procházení
  • Procházení URL: Zaměří se na konkrétní URL nebo stránky
  • Procházení YouTube kanálu: Indexuje videoobsah z YouTube kanálů

Frekvence: Nastavte, jak často se bude procházení spouštět:

  • Denně, Týdně, Měsíčně nebo Ročně

URL: Zadejte cílovou adresu URL, doménu nebo YouTube kanál k procházení

Pokročilé možnosti procházení

S prohlížečem (za příplatek): Povolte při procházení webů s těžkým využitím JavaScriptu, které vyžadují plné vykreslení v prohlížeči. Tato možnost je pomalejší a dražší, ale nezbytná pro weby, které načítají obsah dynamicky.

Sledovat odkazy (za příplatek): Zpracovává další URL nalezené na stránkách. Užitečné, když sitemap neobsahuje všechny URL, ale může spotřebovat více kreditů, protože prochází objevené odkazy.

Pořídit snímek obrazovky (za příplatek): Pořizuje vizuální snímky během procházení. Pomáhá u webů bez og:images nebo tam, kde je třeba vizuální kontext pro AI zpracování.

S rotací proxy (za příplatek): Rotuje IP adresy při každém požadavku, aby se zabránilo detekci Web Application Firewally (WAF) nebo anti-bot systémy.

Filtrování URL

Přeskočit odpovídající URL: Zadejte řetězce (každý na jeden řádek) pro vyloučení URL obsahujících tyto vzory z procházení. Příklad:

/admin/
/login
.pdf

Příklad: Procházení flowhunt.io s /blog vyloučeným

Tento příklad vysvětluje, co se stane, když použijete funkci Plánování ve FlowHunt k procházení domény flowhunt.io a nastavíte /blog jako odpovídající URL k přeskočení v nastavení filtrování URL.

Nastavení konfigurace

  • Typ: Procházení domény
  • URL: flowhunt.io
  • Frekvence: Týdně
  • Filtrování URL (Přeskočit odpovídající URL): /blog
  • Ostatní nastavení: Výchozí (bez vykreslování v prohlížeči, bez sledování odkazů, bez snímků obrazovky, bez rotace proxy)

Co se stane

  1. Zahájení procházení:

    • FlowHunt spustí procházení domény flowhunt.io a zaměří se na všechny dostupné stránky na doméně (např. flowhunt.io, flowhunt.io/features, flowhunt.io/pricing atd.).
  2. Aplikace filtrování URL:

    • Prohledávač vyhodnocuje každé objevené URL podle vzoru pro přeskočení /blog.
    • Každá URL obsahující /blog (např. flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) je z procházení vyloučena.
    • Ostatní URL, jako flowhunt.io/about, flowhunt.io/contact nebo flowhunt.io/docs jsou procházeny, protože neodpovídají vzoru /blog.
  3. Provedení procházení:

    • Prohledávač systematicky zpracuje zbývající URL na flowhunt.io a indexuje jejich obsah pro znalostní bázi vašeho AI Agenta.
    • Protože vykreslování v prohlížeči, sledování odkazů, snímky obrazovky a rotace proxy jsou vypnuté, procházení je nenáročné a zaměřuje se pouze na statický obsah z nezakázaných URL.
  4. Výsledek:

    • Znalostní báze vašeho AI Agenta je aktualizována o nový obsah z flowhunt.io, s výjimkou všeho pod cestou /blog.
    • Procházení běží týdně a zajišťuje, že znalostní báze zůstává aktuální s novými nebo aktualizovanými stránkami (mimo /blog) bez nutnosti ručního zásahu.

Indexovat pouze odpovídající URL: Zadejte řetězce (každý na jeden řádek), abyste procházeli pouze URL obsahující tyto vzory. Příklad:

/blog/
/articles/
/knowledge/

Příklad zahrnutí odpovídajících URL

Nastavení konfigurace

  • Typ: Procházení domény
  • URL: flowhunt.io
  • Frekvence: Týdně
  • Filtrování URL (Indexovat pouze odpovídající URL):
    /blog/
    /articles/
    /knowledge/
    
  • Ostatní nastavení: Výchozí (bez vykreslování v prohlížeči, bez sledování odkazů, bez snímků obrazovky, bez rotace proxy)
  1. Zahájení procházení:

    • FlowHunt spustí procházení domény flowhunt.io a zaměří se na všechny dostupné stránky na doméně (např. flowhunt.io, flowhunt.io/blog, flowhunt.io/articles atd.).
  2. Aplikace filtrování URL:

    • Prohledávač vyhodnocuje každé objevené URL podle vzorů pro indexaci /blog/, /articles/ a /knowledge/.
    • Pouze URL obsahující tyto vzory (např. flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) jsou do procházení zařazeny.
    • Ostatní URL, jako flowhunt.io/about, flowhunt.io/pricing nebo flowhunt.io/contact, jsou vyloučeny, protože neodpovídají zadaným vzorům.
  3. Provedení procházení:

    • Prohledávač zpracuje pouze URL odpovídající /blog/, /articles/ nebo /knowledge/ a indexuje jejich obsah pro znalostní bázi vašeho AI Agenta.
    • Protože vykreslování v prohlížeči, sledování odkazů, snímky obrazovky a rotace proxy jsou vypnuté, procházení je nenáročné a zaměřuje se pouze na statický obsah z vybraných URL.
  4. Výsledek:

    • Znalostní báze vašeho AI Agenta je aktualizována o nový obsah ze stránek flowhunt.io pod cestami /blog/, /articles/ a /knowledge/.
    • Procházení běží týdně a zajišťuje, že znalostní báze zůstává aktuální s novými nebo aktualizovanými stránkami v těchto sekcích bez ručního zásahu.

Vlastní hlavičky: Přidejte vlastní HTTP hlavičky pro požadavky při procházení. Formátujte jako HLAVIČKA=Hodnota (každý na jeden řádek): Tato funkce je velmi užitečná pro přizpůsobení procházení specifickým požadavkům webu. Povolením vlastních hlaviček mohou uživatelé autentizovat požadavky pro přístup k omezenému obsahu, napodobit chování konkrétního prohlížeče nebo splnit API či přístupové zásady webu. Například nastavení hlavičky Authorization umožní přístup k chráněným stránkám, vlastní User-Agent pomůže obejít detekci botů nebo zajistí kompatibilitu s weby, které omezují některé prohledávače. Tato flexibilita zajistí přesnější a komplexnější sběr dat, což usnadňuje indexaci relevantního obsahu do znalostní báze AI Agenta při dodržení bezpečnostních nebo přístupových pravidel webu.

MYHEADER=Jakákoli hodnota
Authorization=Bearer token123
User-Agent=Custom crawler

Jak vytvořit plán

  1. Přejděte na Schedules ve svém FlowHunt dashboardu

    Navigate to Schedules

  2. Klikněte na “Add new Schedule”

    Click Add new Schedule

  3. Nastavte základní parametry:

    • Vyberte typ procházení (Doména/Sitemap/URL/YouTube)
    • Nastavte frekvenci (Denně/Týdně/Měsíčně/Ročně)
    • Zadejte cílové URL
  4. Rozbalte Pokročilé možnosti pokud je potřebujete:

    • Povolit vykreslování v prohlížeči pro weby s JavaScriptem
    • Nastavit sledování odkazů pro důkladné procházení
    • Nastavit pravidla pro filtrování URL
      • Přidejte vlastní hlavičky, pokud je vyžadováno
        Expand Advanced options
  5. Klikněte na “Add new Schedule” pro aktivaci

Osvědčené postupy

Pro většinu webů:

  • Začněte se základním procházením Sitemap nebo Domény
  • Nejprve použijte výchozí nastavení
  • Pokročilé možnosti přidávejte jen pokud je to potřeba

Pro weby náročné na JavaScript:

  • Povolit možnost “S prohlížečem”
  • Zvažte pořizování snímků obrazovky pro vizuální obsah
  • Může být nutná rotace proxy při blokaci

Pro rozsáhlé weby:

  • Použijte filtrování URL pro zaměření na relevantní obsah
  • Nastavte vhodnou frekvenci pro vyvážení aktuálnosti a spotřeby kreditů
  • Sledujte spotřebu kreditů při použití pokročilých funkcí

Pro e-shopy nebo dynamický obsah:

  • Použijte denní nebo týdenní frekvenci
  • Povolit sledování odkazů pro stránky produktů
  • Zvažte vlastní hlavičky pro autentizovaný obsah

Spotřeba kreditů

Pokročilé funkce spotřebovávají další kredity:

  • Vykreslování v prohlížeči zvyšuje čas zpracování a cenu
  • Sledování odkazů násobí počet procházených stránek
  • Snímky obrazovky přidávají vizuální zpracování navíc
  • Rotace proxy přidává síťovou režii

Sledujte svou spotřebu kreditů a upravte plánování podle svých potřeb a rozpočtu.

Řešení běžných problémů

Selhání procházení:

  • Povolit “S prohlížečem” pro weby závislé na JavaScriptu
  • Přidat “S rotací proxy” při blokaci WAF
  • Zkontrolujte vlastní hlavičky pro autentizaci

Příliš mnoho/málo stránek:

  • Použijte “Přeskočit odpovídající URL” pro vyloučení nechtěného obsahu
  • Použijte “Indexovat pouze odpovídající URL” pro zaměření na konkrétní sekce
  • Upravte nastavení sledování odkazů

Chybějící obsah:

  • Povolit “Sledovat odkazy”, pokud je sitemap neúplná
  • Zkontrolujte, zda nejsou pravidla pro filtrování URL příliš restriktivní
  • Ověřte, že cílové URL je přístupné

Zjistit více

Plánovače
Plánovače

Plánovače

Funkce Plánovače ve FlowHunt vám umožňuje pravidelně procházet domény a kanály YouTube, aby vaši chatboti a toky zůstávali aktuální s nejnovějšími informacemi. ...

2 min čtení
AI Schedules +4
Snižte AI halucinace přidáním vlastních znalostních bází
Snižte AI halucinace přidáním vlastních znalostních bází

Snižte AI halucinace přidáním vlastních znalostních bází

Snižte AI halucinace a zajistěte přesné odpovědi chatbotu pomocí funkce Plánování od FlowHunt. Objevte výhody, praktické příklady použití a podrobný návod k nas...

7 min čtení
AI Chatbot +4
Proměňte YouTube videa na blogy pomocí AI automatizace
Proměňte YouTube videa na blogy pomocí AI automatizace

Proměňte YouTube videa na blogy pomocí AI automatizace

Zjistěte, jak automaticky převádět YouTube videa na SEO optimalizované blogové příspěvky pomocí AI agentů, FlowHunt a inteligentní workflow automatizace. Objevt...

14 min čtení
AI Automation Content Creation +4