Planlægning af automatiserede website-crawls

FlowHunts Tidsplan-funktion gør det muligt at automatisere crawling og indeksering af websites, sitemaps, domæner og YouTube-kanaler. Dette sikrer, at din AI Agent-vidensbase forbliver opdateret med nyt indhold uden manuel indsats.

Sådan fungerer tidsplanlægning

Automatiseret crawling:
Opsæt tilbagevendende crawls, der kører dagligt, ugentligt, månedligt eller årligt for at holde din vidensbase opdateret.
Flere crawl-typer:
Vælg mellem domæne-crawl, sitemap-crawl, URL-crawl eller YouTube-kanal-crawl afhængigt af din indholdskilde.
Avancerede muligheder:
Konfigurer browser-rendering, linkfølgning, skærmbilleder, proxy-rotation og URL-filtrering for optimale resultater.

Indstillinger for tidsplan-konfiguration

Grundlæggende indstillinger

Type: Vælg din crawl-metode:

Domæne-crawl: Crawl et helt domæne systematisk
Sitemap-crawl: Brug hjemmesidens sitemap.xml til effektiv crawling
URL-crawl: Målret specifikke URLs eller sider
YouTube-kanal-crawl: Indekser videoinhold fra YouTube-kanaler

Frekvens: Angiv hvor ofte crawlen skal køre:

Dagligt, Ugentligt, Månedligt eller Årligt

URL: Indtast mål-URL, domæne eller YouTube-kanal, der skal crawles

Avancerede crawl-muligheder

Med browser (ekstra credits): Aktivér ved crawling af JavaScript-tunge hjemmesider, der kræver fuld browser-rendering. Denne mulighed er langsommere og dyrere, men nødvendig for sider, der loader indhold dynamisk.

Følg links (ekstra credits): Behandl yderligere URLs fundet på siderne. Nyttigt, når sitemaps ikke indeholder alle URLs, men kan bruge mange credits, da den crawler opdagede links.

Tag skærmbillede (ekstra credits): Tag visuelle skærmbilleder under crawling. Hjælpsomt for hjemmesider uden og:image eller hvor visuel kontekst er nødvendig for AI-behandling.

Med proxy-rotation (ekstra credits): Roter IP-adresser for hver anmodning for at undgå opdagelse af Web Application Firewalls (WAF) eller anti-botsystemer.

URL-filtrering

Spring matchende URLs over: Indtast strenge (én pr. linje) for at udelukke URLs, der indeholder disse mønstre, fra crawling. Eksempel:

/admin/
/login
.pdf

Eksempel: Crawling af flowhunt.io med /blog udeladt

Dette eksempel forklarer, hvad der sker, når du bruger FlowHunts Tidsplan-funktion til at crawle flowhunt.io-domænet, mens /blog er indsat som et matchende URL-mønster, der skal springes over i URL-filtreringen.

Konfigurationsindstillinger

Type: Domæne-crawl
URL: flowhunt.io
Frekvens: Ugentlig
URL-filtrering (Spring matchende URLs over): /blog
Andre indstillinger: Standard (ingen browser-rendering, ingen linkfølgning, ingen skærmbilleder, ingen proxy-rotation)

Hvad sker der

Crawl-initiering:
- FlowHunt starter en domæne-crawl af flowhunt.io og målretter alle tilgængelige sider på domænet (fx flowhunt.io, flowhunt.io/features, flowhunt.io/pricing osv.).
URL-filtrering anvendt:
- Crawleren vurderer hver opdaget URL mod skip-mønstret /blog.
- Enhver URL, der indeholder /blog (fx flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category), udelades fra crawlen.
- Andre URLs, såsom flowhunt.io/about, flowhunt.io/contact eller flowhunt.io/docs, crawles, da de ikke matcher /blog-mønstret.
Crawl-udførelse:
- Crawleren bearbejder systematisk de resterende URLs på flowhunt.io og indekserer deres indhold til din AI Agent-vidensbase.
- Da browser-rendering, linkfølgning, skærmbilleder og proxy-rotation er deaktiveret, er crawlen letvægts og fokuserer kun på statisk indhold fra ikke-udeladte URLs.
Resultat:
- Din AI Agent-vidensbase opdateres med nyt indhold fra flowhunt.io, undtagen alt under /blog-stien.
- Crawlen kører ugentligt og sikrer, at vidensbasen forbliver opdateret med nye eller ændrede sider (uden for /blog) uden manuel indsats.

Indekser kun matchende URLs: Indtast strenge (én pr. linje) for kun at crawle URLs, der indeholder disse mønstre. Eksempel:

/blog/
/articles/
/knowledge/

Eksempel på inklusion af matchende URLs

Konfigurationsindstillinger

Type: Domæne-crawl
URL: flowhunt.io
Frekvens: Ugentlig
URL-filtrering (Indekser kun matchende URLs):
```
/blog/
/articles/
/knowledge/
```
Andre indstillinger: Standard (ingen browser-rendering, ingen linkfølgning, ingen skærmbilleder, ingen proxy-rotation)

Crawl-initiering:
- FlowHunt starter en domæne-crawl af flowhunt.io og målretter alle tilgængelige sider på domænet (fx flowhunt.io, flowhunt.io/blog, flowhunt.io/articles osv.).
URL-filtrering anvendt:
- Crawleren vurderer hver opdaget URL mod index-mønstrene /blog/, /articles/ og /knowledge/.
- Kun URLs, der indeholder disse mønstre (fx flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide), inkluderes i crawlen.
- Andre URLs, såsom flowhunt.io/about, flowhunt.io/pricing eller flowhunt.io/contact, udelades, da de ikke matcher de angivne mønstre.
Crawl-udførelse:
- Crawleren behandler kun de URLs, der matcher /blog/, /articles/ eller /knowledge/, og indekserer deres indhold til din AI Agent-vidensbase.
- Da browser-rendering, linkfølgning, skærmbilleder og proxy-rotation er deaktiveret, er crawlen letvægts og fokuserer kun på statisk indhold fra de inkluderede URLs.
Resultat:
- Din AI Agent-vidensbase opdateres med nyt indhold fra flowhunt.io-sider under stierne /blog/, /articles/ og /knowledge/.
- Crawlen kører ugentligt og sikrer, at vidensbasen forbliver opdateret med nye eller ændrede sider inden for disse sektioner uden manuel indsats.

Brugerdefinerede headers: Tilføj brugerdefinerede HTTP-headers til crawl-anmodninger. Formatér som HEADER=Værdi (én pr. linje): Denne funktion er særdeles nyttig til at tilpasse crawls til specifikke hjemmesidekrav. Ved at aktivere brugerdefinerede headers kan brugere autentificere anmodninger for at få adgang til begrænset indhold, efterligne bestemte browseradfærd eller overholde en hjemmesides API- eller adgangspolitikker. For eksempel kan en Authorization-header give adgang til beskyttede sider, mens en brugerdefineret User-Agent kan hjælpe med at undgå bot-detektion eller sikre kompatibilitet med sider, der begrænser visse crawlers. Denne fleksibilitet sikrer mere nøjagtig og omfattende datainhentning, hvilket gør det lettere at indeksere relevant indhold til en AI Agent-vidensbase og samtidig overholde en hjemmesides sikkerheds- eller adgangsprotokoller.

MYHEADER=Enhver værdi
Authorization=Bearer token123
User-Agent=Custom crawler

Sådan opretter du en tidsplan

Navigér til Tidsplaner i dit FlowHunt-dashboard
Klik på “Tilføj ny tidsplan”
Konfigurer grundindstillinger:
- Vælg crawl-type (Domæne/Sitemap/URL/YouTube)
- Angiv frekvens (Dagligt/Ugentligt/Månedligt/Årligt)
- Indtast mål-URL
Udvid Avancerede muligheder om nødvendigt:
- Aktiver browser-rendering for JS-tunge sider
- Konfigurer linkfølgning for omfattende crawling
- Opsæt URL-filtreringsregler
  - Tilføj brugerdefinerede headers om nødvendigt
Klik på “Tilføj ny tidsplan” for at aktivere