Geautomatiseerde Website Crawls Inplannen

Geautomatiseerde Website Crawls Inplannen

Schedules Crawling AI Agent Knowledge Base

Met de Schema-functie van FlowHunt kun je het crawlen en indexeren van websites, sitemaps, domeinen en YouTube-kanalen automatiseren. Zo blijft de kennisbank van je AI Agent altijd actueel met verse content, zonder handmatige tussenkomst.

Hoe werkt het inplannen?

  • Automatisch crawlen:
    Stel terugkerende crawls in die dagelijks, wekelijks, maandelijks of jaarlijks worden uitgevoerd om je kennisbank up-to-date te houden.

  • Meerdere crawltypen:
    Kies uit Domein crawl, Sitemap crawl, URL crawl of YouTube-kanaal crawl, afhankelijk van je contentbron.

  • Geavanceerde opties:
    Stel browser rendering, linkvolgen, screenshots, proxy-rotatie en URL-filtering in voor optimale resultaten.

Schema Configuratie-opties

Basisinstellingen

Type: Kies je crawl-methode:

  • Domein crawl: Crawl een heel domein systematisch
  • Sitemap crawl: Gebruik de sitemap.xml van de website voor efficiënt crawlen
  • URL crawl: Richt je op specifieke URL’s of pagina’s
  • YouTube-kanaal crawl: Indexeer videocontent van YouTube-kanalen

Frequentie: Stel in hoe vaak de crawl moet lopen:

  • Dagelijks, Wekelijks, Maandelijks of Jaarlijks

URL: Voer de doel-URL, het domein of YouTube-kanaal in om te crawlen

Geavanceerde Crawlopties

Met Browser (extra credits): Inschakelen bij het crawlen van JavaScript-intensieve websites die volledige browser rendering vereisen. Deze optie is langzamer en duurder, maar noodzakelijk voor sites die content dynamisch laden.

Links volgen (extra credits): Verwerk extra URL’s gevonden binnen pagina’s. Handig als sitemaps niet alle URL’s bevatten, maar kan veel credits kosten omdat het ontdekte links crawlt.

Screenshot maken (extra credits): Maak tijdens het crawlen visuele screenshots. Nuttig voor websites zonder og:images of als visuele context nodig is voor AI-verwerking.

Met Proxy-rotatie (extra credits): Wissel IP-adressen per verzoek om detectie door Web Application Firewalls (WAF) of anti-botsystemen te voorkomen.

URL-filtering

Sla overeenkomende URL’s over: Voer strings in (één per regel) om URL’s uit te sluiten die deze patronen bevatten. Voorbeeld:

/admin/
/login
.pdf

Voorbeeld: flowhunt.io crawlen met /blog overgeslagen

Dit voorbeeld legt uit wat er gebeurt wanneer je de Schema-functie van FlowHunt gebruikt om het domein flowhunt.io te crawlen terwijl je /blog als overeenkomend URL-patroon instelt om te overslaan in de URL-filterinstellingen.

Configuratie-instellingen

  • Type: Domein crawl
  • URL: flowhunt.io
  • Frequentie: Wekelijks
  • URL-filtering (Sla overeenkomende URL’s over): /blog
  • Overige instellingen: Standaard (geen browser rendering, geen link volgen, geen screenshots, geen proxy-rotatie)

Wat gebeurt er

  1. Crawl Start:

    • FlowHunt start een domein crawl van flowhunt.io en richt zich op alle toegankelijke pagina’s van het domein (zoals flowhunt.io, flowhunt.io/features, flowhunt.io/pricing, etc.).
  2. URL-filtering toegepast:

    • De crawler vergelijkt elke gevonden URL met het oversla-patroon /blog.
    • Elke URL die /blog bevat (zoals flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) wordt uitgesloten van de crawl.
    • Andere URL’s zoals flowhunt.io/about, flowhunt.io/contact of flowhunt.io/docs worden wel gecrawld omdat ze niet aan het /blog-patroon voldoen.
  3. Crawl Uitvoering:

    • De crawler verwerkt systematisch de resterende URL’s op flowhunt.io en indexeert hun inhoud voor de kennisbank van je AI Agent.
    • Omdat browser rendering, link volgen, screenshots en proxy-rotatie uitgeschakeld zijn, is de crawl lichtgewicht en gericht op alleen statische content van niet-uitgesloten URL’s.
  4. Resultaat:

    • De kennisbank van je AI Agent wordt bijgewerkt met verse content van flowhunt.io, met uitzondering van alles onder het /blog-pad.
    • De crawl draait wekelijks, zodat de kennisbank actueel blijft met nieuwe of bijgewerkte pagina’s (buiten /blog), zonder handmatig werk.

Indexeer alleen overeenkomende URL’s: Voer strings in (één per regel) om alleen URL’s te crawlen die deze patronen bevatten. Voorbeeld:

/blog/
/articles/
/knowledge/

Voorbeeld van opnemen van overeenkomende URL’s

Configuratie-instellingen

  • Type: Domein crawl
  • URL: flowhunt.io
  • Frequentie: Wekelijks
  • URL-filtering (Indexeer alleen overeenkomende URL’s):
    /blog/
    /articles/
    /knowledge/
    
  • Overige instellingen: Standaard (geen browser rendering, geen link volgen, geen screenshots, geen proxy-rotatie)
  1. Crawl Start:

    • FlowHunt start een domein crawl van flowhunt.io en richt zich op alle toegankelijke pagina’s op het domein (zoals flowhunt.io, flowhunt.io/blog, flowhunt.io/articles, etc.).
  2. URL-filtering toegepast:

    • De crawler vergelijkt elke gevonden URL met de indexeer-patronen /blog/, /articles/ en /knowledge/.
    • Alleen URL’s die deze patronen bevatten (zoals flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) worden opgenomen in de crawl.
    • Andere URL’s, zoals flowhunt.io/about, flowhunt.io/pricing of flowhunt.io/contact, worden uitgesloten omdat ze niet aan de opgegeven patronen voldoen.
  3. Crawl Uitvoering:

    • De crawler verwerkt alleen de URL’s die overeenkomen met /blog/, /articles/ of /knowledge/ en indexeert hun inhoud voor de kennisbank van je AI Agent.
    • Omdat browser rendering, link volgen, screenshots en proxy-rotatie uitgeschakeld zijn, is de crawl lichtgewicht en gericht op alleen statische content van de opgenomen URL’s.
  4. Resultaat:

    • De kennisbank van je AI Agent wordt bijgewerkt met verse content van flowhunt.io-pagina’s onder de paden /blog/, /articles/ en /knowledge/.
    • De crawl draait wekelijks, zodat de kennisbank actueel blijft met nieuwe of bijgewerkte pagina’s binnen deze secties, zonder handmatige tussenkomst.

Aangepaste Headers: Voeg aangepaste HTTP-headers toe voor crawlverzoeken. Formatteer als HEADER=Value (één per regel): Deze functie is erg handig om crawls af te stemmen op specifieke websitebehoeften. Door aangepaste headers in te schakelen, kunnen gebruikers verzoeken authentiseren om toegang te krijgen tot afgeschermde content, specifiek browsergedrag nabootsen of voldoen aan het API- of toegangsbeleid van een website. Door bijvoorbeeld een Authorization-header in te stellen, kan toegang worden verkregen tot beschermde pagina’s, terwijl een aangepaste User-Agent kan helpen om botdetectie te voorkomen of compatibiliteit te waarborgen bij sites die bepaalde crawlers weren. Deze flexibiliteit zorgt voor een nauwkeurigere en uitgebreidere dataverzameling, waardoor het eenvoudiger wordt om relevante content te indexeren voor de kennisbank van een AI Agent en tegelijkertijd te voldoen aan de beveiligings- of toegangsprotocollen van een website.

MYHEADER=Any value
Authorization=Bearer token123
User-Agent=Custom crawler

Hoe maak je een schema aan?

  1. Navigeer naar Schema’s in je FlowHunt-dashboard
    Navigeer naar Schema’s

  2. Klik op “Nieuw Schema toevoegen”
    Klik op Nieuw Schema toevoegen

  3. Configureer basisinstellingen:

    • Selecteer crawltype (Domein/Sitemap/URL/YouTube)
    • Stel frequentie in (Dagelijks/Wekelijks/Maandelijks/Jaarlijks)
    • Voer de doel-URL in
  4. Vouw Geavanceerde opties uit indien nodig:

    • Schakel browser rendering in voor JS-intensieve sites
    • Stel linkvolgen in voor uitgebreide crawling
    • Stel URL-filterregels in
  5. Klik op “Nieuw Schema toevoegen” om te activeren

Best Practices

Voor de meeste websites:

  • Begin met een basis Sitemap- of Domein crawl
  • Gebruik eerst de standaardinstellingen
  • Voeg geavanceerde opties alleen toe indien nodig

Voor JavaScript-intensieve sites:

  • Schakel de optie “Met Browser” in
  • Overweeg screenshots te maken voor visuele content
  • Proxy-rotatie kan nodig zijn bij blokkades

Voor grote sites:

  • Gebruik URL-filtering om je te richten op relevante content
  • Stel een passende frequentie in voor balans tussen actualiteit en creditgebruik
  • Houd het creditverbruik in de gaten bij geavanceerde functies

Voor e-commerce of dynamische content:

  • Gebruik een dagelijkse of wekelijkse frequentie
  • Schakel linkvolgen in voor productpagina’s
  • Overweeg aangepaste headers voor geauthentiseerde content

Creditgebruik

Geavanceerde functies verbruiken extra credits:

  • Browser rendering verhoogt verwerkingstijd en kosten
  • Links volgen vermenigvuldigt het aantal gecrawlde pagina’s
  • Screenshots voegen visuele verwerkingslast toe
  • Proxy-rotatie verhoogt de netwerkbelasting

Houd je creditverbruik in de gaten en pas schema’s aan op basis van je behoeften en budget.

Problemen oplossen

Crawl mislukt:

  • Schakel “Met Browser” in voor JavaScript-afhankelijke sites
  • Voeg “Met Proxy-rotatie” toe als je geblokkeerd wordt door een WAF
  • Controleer aangepaste headers voor authenticatie

Te veel/weinig pagina’s:

  • Gebruik “Sla overeenkomende URL’s over” om ongewenste content uit te sluiten
  • Gebruik “Indexeer alleen overeenkomende URL’s” om je op specifieke secties te richten
  • Pas instellingen voor linkvolgen aan

Ontbrekende content:

  • Schakel “Links volgen” in als de sitemap onvolledig is
  • Controleer of de URL-filterregels niet te streng zijn
  • Controleer of de doel-URL toegankelijk is

Meer informatie

Zet YouTube-video's om in blogs met AI-automatisering
Zet YouTube-video's om in blogs met AI-automatisering

Zet YouTube-video's om in blogs met AI-automatisering

Leer hoe je automatisch YouTube-video's omzet in SEO-geoptimaliseerde blogposts met behulp van AI-agents, FlowHunt en intelligente workflow-automatisering. Ontd...

16 min lezen
AI Automation Content Creation +4
Planningen
Planningen

Planningen

De Planningen-functie in FlowHunt stelt je in staat om periodiek domeinen en YouTube-kanalen te crawlen, zodat je chatbots en flows altijd up-to-date blijven me...

3 min lezen
AI Schedules +4