Planlægning af automatiserede website-crawls

Planlægning af automatiserede website-crawls

Schedules Crawling AI Agent Knowledge Base

FlowHunts Tidsplan-funktion gør det muligt at automatisere crawling og indeksering af websites, sitemaps, domæner og YouTube-kanaler. Dette sikrer, at din AI Agent-vidensbase forbliver opdateret med nyt indhold uden manuel indsats.

Sådan fungerer tidsplanlægning

  • Automatiseret crawling:
    Opsæt tilbagevendende crawls, der kører dagligt, ugentligt, månedligt eller årligt for at holde din vidensbase opdateret.

  • Flere crawl-typer:
    Vælg mellem domæne-crawl, sitemap-crawl, URL-crawl eller YouTube-kanal-crawl afhængigt af din indholdskilde.

  • Avancerede muligheder:
    Konfigurer browser-rendering, linkfølgning, skærmbilleder, proxy-rotation og URL-filtrering for optimale resultater.

Indstillinger for tidsplan-konfiguration

Grundlæggende indstillinger

Type: Vælg din crawl-metode:

  • Domæne-crawl: Crawl et helt domæne systematisk
  • Sitemap-crawl: Brug hjemmesidens sitemap.xml til effektiv crawling
  • URL-crawl: Målret specifikke URLs eller sider
  • YouTube-kanal-crawl: Indekser videoinhold fra YouTube-kanaler

Frekvens: Angiv hvor ofte crawlen skal køre:

  • Dagligt, Ugentligt, Månedligt eller Årligt

URL: Indtast mål-URL, domæne eller YouTube-kanal, der skal crawles

Avancerede crawl-muligheder

Med browser (ekstra credits): Aktivér ved crawling af JavaScript-tunge hjemmesider, der kræver fuld browser-rendering. Denne mulighed er langsommere og dyrere, men nødvendig for sider, der loader indhold dynamisk.

Følg links (ekstra credits): Behandl yderligere URLs fundet på siderne. Nyttigt, når sitemaps ikke indeholder alle URLs, men kan bruge mange credits, da den crawler opdagede links.

Tag skærmbillede (ekstra credits): Tag visuelle skærmbilleder under crawling. Hjælpsomt for hjemmesider uden og:image eller hvor visuel kontekst er nødvendig for AI-behandling.

Med proxy-rotation (ekstra credits): Roter IP-adresser for hver anmodning for at undgå opdagelse af Web Application Firewalls (WAF) eller anti-botsystemer.

URL-filtrering

Spring matchende URLs over: Indtast strenge (én pr. linje) for at udelukke URLs, der indeholder disse mønstre, fra crawling. Eksempel:

/admin/
/login
.pdf

Eksempel: Crawling af flowhunt.io med /blog udeladt

Dette eksempel forklarer, hvad der sker, når du bruger FlowHunts Tidsplan-funktion til at crawle flowhunt.io-domænet, mens /blog er indsat som et matchende URL-mønster, der skal springes over i URL-filtreringen.

Konfigurationsindstillinger

  • Type: Domæne-crawl
  • URL: flowhunt.io
  • Frekvens: Ugentlig
  • URL-filtrering (Spring matchende URLs over): /blog
  • Andre indstillinger: Standard (ingen browser-rendering, ingen linkfølgning, ingen skærmbilleder, ingen proxy-rotation)

Hvad sker der

  1. Crawl-initiering:

    • FlowHunt starter en domæne-crawl af flowhunt.io og målretter alle tilgængelige sider på domænet (fx flowhunt.io, flowhunt.io/features, flowhunt.io/pricing osv.).
  2. URL-filtrering anvendt:

    • Crawleren vurderer hver opdaget URL mod skip-mønstret /blog.
    • Enhver URL, der indeholder /blog (fx flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category), udelades fra crawlen.
    • Andre URLs, såsom flowhunt.io/about, flowhunt.io/contact eller flowhunt.io/docs, crawles, da de ikke matcher /blog-mønstret.
  3. Crawl-udførelse:

    • Crawleren bearbejder systematisk de resterende URLs på flowhunt.io og indekserer deres indhold til din AI Agent-vidensbase.
    • Da browser-rendering, linkfølgning, skærmbilleder og proxy-rotation er deaktiveret, er crawlen letvægts og fokuserer kun på statisk indhold fra ikke-udeladte URLs.
  4. Resultat:

    • Din AI Agent-vidensbase opdateres med nyt indhold fra flowhunt.io, undtagen alt under /blog-stien.
    • Crawlen kører ugentligt og sikrer, at vidensbasen forbliver opdateret med nye eller ændrede sider (uden for /blog) uden manuel indsats.

Indekser kun matchende URLs: Indtast strenge (én pr. linje) for kun at crawle URLs, der indeholder disse mønstre. Eksempel:

/blog/
/articles/
/knowledge/

Eksempel på inklusion af matchende URLs

Konfigurationsindstillinger

  • Type: Domæne-crawl
  • URL: flowhunt.io
  • Frekvens: Ugentlig
  • URL-filtrering (Indekser kun matchende URLs):
    /blog/
    /articles/
    /knowledge/
    
  • Andre indstillinger: Standard (ingen browser-rendering, ingen linkfølgning, ingen skærmbilleder, ingen proxy-rotation)
  1. Crawl-initiering:

    • FlowHunt starter en domæne-crawl af flowhunt.io og målretter alle tilgængelige sider på domænet (fx flowhunt.io, flowhunt.io/blog, flowhunt.io/articles osv.).
  2. URL-filtrering anvendt:

    • Crawleren vurderer hver opdaget URL mod index-mønstrene /blog/, /articles/ og /knowledge/.
    • Kun URLs, der indeholder disse mønstre (fx flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide), inkluderes i crawlen.
    • Andre URLs, såsom flowhunt.io/about, flowhunt.io/pricing eller flowhunt.io/contact, udelades, da de ikke matcher de angivne mønstre.
  3. Crawl-udførelse:

    • Crawleren behandler kun de URLs, der matcher /blog/, /articles/ eller /knowledge/, og indekserer deres indhold til din AI Agent-vidensbase.
    • Da browser-rendering, linkfølgning, skærmbilleder og proxy-rotation er deaktiveret, er crawlen letvægts og fokuserer kun på statisk indhold fra de inkluderede URLs.
  4. Resultat:

    • Din AI Agent-vidensbase opdateres med nyt indhold fra flowhunt.io-sider under stierne /blog/, /articles/ og /knowledge/.
    • Crawlen kører ugentligt og sikrer, at vidensbasen forbliver opdateret med nye eller ændrede sider inden for disse sektioner uden manuel indsats.

Brugerdefinerede headers: Tilføj brugerdefinerede HTTP-headers til crawl-anmodninger. Formatér som HEADER=Værdi (én pr. linje): Denne funktion er særdeles nyttig til at tilpasse crawls til specifikke hjemmesidekrav. Ved at aktivere brugerdefinerede headers kan brugere autentificere anmodninger for at få adgang til begrænset indhold, efterligne bestemte browseradfærd eller overholde en hjemmesides API- eller adgangspolitikker. For eksempel kan en Authorization-header give adgang til beskyttede sider, mens en brugerdefineret User-Agent kan hjælpe med at undgå bot-detektion eller sikre kompatibilitet med sider, der begrænser visse crawlers. Denne fleksibilitet sikrer mere nøjagtig og omfattende datainhentning, hvilket gør det lettere at indeksere relevant indhold til en AI Agent-vidensbase og samtidig overholde en hjemmesides sikkerheds- eller adgangsprotokoller.

MYHEADER=Enhver værdi
Authorization=Bearer token123
User-Agent=Custom crawler

Sådan opretter du en tidsplan

  1. Navigér til Tidsplaner i dit FlowHunt-dashboard Navigér til Tidsplaner

  2. Klik på “Tilføj ny tidsplan” Klik på Tilføj ny tidsplan

  3. Konfigurer grundindstillinger:

    • Vælg crawl-type (Domæne/Sitemap/URL/YouTube)
    • Angiv frekvens (Dagligt/Ugentligt/Månedligt/Årligt)
    • Indtast mål-URL
  4. Udvid Avancerede muligheder om nødvendigt:

    • Aktiver browser-rendering for JS-tunge sider
    • Konfigurer linkfølgning for omfattende crawling
    • Opsæt URL-filtreringsregler
      • Tilføj brugerdefinerede headers om nødvendigt Udvid Avancerede muligheder
  5. Klik på “Tilføj ny tidsplan” for at aktivere

Best practices

For de fleste websites:

  • Start med grundlæggende Sitemap- eller Domæne-crawl
  • Brug standardindstillinger til at begynde med
  • Tilføj avancerede muligheder kun hvis nødvendigt

For JavaScript-tunge sider:

  • Aktiver “Med browser”-muligheden
  • Overvej at tage skærmbilleder for visuelt indhold
  • Kan kræve proxy-rotation ved blokering

For store sites:

  • Brug URL-filtrering til at fokusere på relevant indhold
  • Sæt passende frekvens for at balancere opdateringsgrad og credit-forbrug
  • Overvåg credit-forbrug ved brug af avancerede funktioner

For e-handel eller dynamisk indhold:

  • Brug daglig eller ugentlig frekvens
  • Aktiver linkfølgning for produktsider
  • Overvej brugerdefinerede headers til autentificeret indhold

Credit-forbrug

Avancerede funktioner bruger ekstra credits:

  • Browser-rendering øger behandlingstid og omkostning
  • Linkfølgning multiplicerer antallet af crawlede sider
  • Skærmbilleder tilføjer visuel behandlingsbelastning
  • Proxy-rotation tilføjer netværksbelastning

Overvåg dit credit-forbrug og justér tidsplaner efter behov og budget.

Fejlfinding af almindelige problemer

Crawl-fejl:

  • Aktiver “Med browser” for JavaScript-afhængige sider
  • Tilføj “Med proxy-rotation” ved blokering fra WAF
  • Tjek brugerdefinerede headers for autentificering

For mange/få sider:

  • Brug “Spring matchende URLs over” for at udelade uønsket indhold
  • Brug “Indekser kun matchende URLs” for at fokusere på bestemte sektioner
  • Justér indstillinger for linkfølgning

Manglende indhold:

  • Aktiver “Følg links”, hvis sitemap er ufuldstændigt
  • Tjek at URL-filtreringsregler ikke er for restriktive
  • Verificér at mål-URL er tilgængelig

Lær mere

Tidsplaner
Tidsplaner

Tidsplaner

Tidsplan-funktionen i FlowHunt lader dig periodisk crawle domæner og YouTube-kanaler, så dine chatbots og flows altid er opdaterede med den nyeste information. ...

3 min læsning
AI Schedules +4
AI-indholdsplanlægger med Google Research
AI-indholdsplanlægger med Google Research

AI-indholdsplanlægger med Google Research

Forvandl din indholdsstrategi med vores AI-drevne Indholdsplanlægger, der kombinerer avancerede AI-funktioner med realtids Google-research. Skab datadrevne, str...

2 min læsning
Content Planning AI +4
Calendly
Calendly

Calendly

Integrer FlowHunt med Calendly for at automatisere mødeplanlægning, håndtere aftaler og synkronisere kalendere ubesværet med AI-drevne arbejdsgange.

3 min læsning
AI Calendly +3