Planlegg automatiserte nettsidegjennomganger

Planlegg automatiserte nettsidegjennomganger

Schedules Crawling AI Agent Knowledge Base

FlowHunts tidsplanfunksjon lar deg automatisere gjennomgang og indeksering av nettsteder, sitemaps, domener og YouTube-kanaler. Dette sikrer at AI-agentens kunnskapsbase til enhver tid er oppdatert med nytt innhold uten manuell innsats.

Hvordan tidsplanlegging fungerer

  • Automatisert gjennomgang:
    Sett opp repeterende gjennomganger som kjører daglig, ukentlig, månedlig eller årlig for å holde kunnskapsbasen oppdatert.

  • Flere gjennomgangstyper:
    Velg mellom domenegjennomgang, sitemap-gjennomgang, URL-gjennomgang eller YouTube-kanalgjennomgang ut fra innholdskilde.

  • Avanserte alternativer:
    Konfigurer nettleserrendering, lenkefølging, skjermbilder, proxy-rotasjon og URL-filtrering for optimale resultater.

Alternativer for tidsplankonfigurasjon

Grunnleggende innstillinger

Type: Velg gjennomgangsmetode:

  • Domenegjennomgang: Gjennomgå hele domenet systematisk
  • Sitemap-gjennomgang: Bruk nettstedets sitemap.xml for effektiv gjennomgang
  • URL-gjennomgang: Målrett mot bestemte URL-er eller sider
  • YouTube-kanalgjennomgang: Indekser videoinnhold fra YouTube-kanaler

Frekvens: Angi hvor ofte gjennomgangen skal kjøres:

  • Daglig, ukentlig, månedlig eller årlig

URL: Skriv inn mål-URL, domenet eller YouTube-kanalen som skal gjennomgås

Avanserte gjennomgangsalternativer

Med nettleser (ekstra kreditter): Aktiveres når du skal gjennomgå JavaScript-tunge nettsteder som krever full nettleserrendering. Dette alternativet er tregere og dyrere, men nødvendig for sider som laster innhold dynamisk.

Følg lenker (ekstra kreditter): Prosesser flere URL-er som finnes på sidene. Nyttig hvis sitemaps ikke inneholder alle URL-er, men kan bruke betydelige kreditter ettersom den gjennomgår oppdagede lenker.

Ta skjermbilde (ekstra kreditter): Ta visuelle skjermbilder under gjennomgang. Nyttig for nettsteder uten og:image eller der visuell kontekst er viktig for AI-behandling.

Med proxy-rotasjon (ekstra kreditter): Bytt IP-adresse for hver forespørsel for å unngå deteksjon av webapplikasjonsbrannmurer (WAF) eller anti-bot-systemer.

URL-filtrering

Hopp over matchende URL-er: Skriv inn strenger (én per linje) for å ekskludere URL-er som inneholder disse mønstrene fra gjennomgang. Eksempel:

/admin/
/login
.pdf

Eksempel: Gjennomgang av flowhunt.io med /blog utelatt

Dette eksempelet forklarer hva som skjer når du bruker FlowHunts tidsplanfunksjon til å gjennomgå domenet flowhunt.io samtidig som /blog er satt som et mønster som skal hoppes over i URL-filtreringen.

Konfigurasjonsinnstillinger

  • Type: Domenegjennomgang
  • URL: flowhunt.io
  • Frekvens: Ukentlig
  • URL-filtrering (Hopp over matchende URL-er): /blog
  • Andre innstillinger: Standard (ingen nettleserrendering, ingen lenkefølging, ingen skjermbilder, ingen proxy-rotasjon)

Hva skjer

  1. Oppstart av gjennomgang:

    • FlowHunt starter en domenegjennomgang av flowhunt.io og målretter alle tilgjengelige sider på domenet (f.eks. flowhunt.io, flowhunt.io/features, flowhunt.io/pricing osv.).
  2. URL-filtrering brukt:

    • Gjennomgangsverktøyet vurderer hver oppdaget URL mot mønsteret /blog.
    • Enhver URL som inneholder /blog (f.eks. flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) utelates fra gjennomgangen.
    • Andre URL-er, som flowhunt.io/about, flowhunt.io/contact eller flowhunt.io/docs, gjennomgås ettersom de ikke matcher /blog-mønsteret.
  3. Gjennomførsel av gjennomgang:

    • Verktøyet behandler systematisk de resterende URL-ene på flowhunt.io og indekserer innholdet for AI-agentens kunnskapsbase.
    • Siden nettleserrendering, lenkefølging, skjermbilder og proxy-rotasjon er deaktivert, blir gjennomgangen lett og fokuserer kun på statisk innhold fra ikke-utelte URL-er.
  4. Resultat:

    • Kunnskapsbasen til AI-agenten oppdateres med nytt innhold fra flowhunt.io, med unntak av alt under /blog-stien.
    • Gjennomgangen kjøres ukentlig, slik at kunnskapsbasen holdes oppdatert med nye eller endrede sider (utenfor /blog) uten manuell innsats.

Indekser kun matchende URL-er: Skriv inn strenger (én per linje) for kun å gjennomgå URL-er som inneholder disse mønstrene. Eksempel:

/blog/
/articles/
/knowledge/

Eksempel på inkludering av matchende URL-er

Konfigurasjonsinnstillinger

  • Type: Domenegjennomgang
  • URL: flowhunt.io
  • Frekvens: Ukentlig
  • URL-filtrering (Indekser kun matchende URL-er):
    /blog/
    /articles/
    /knowledge/
    
  • Andre innstillinger: Standard (ingen nettleserrendering, ingen lenkefølging, ingen skjermbilder, ingen proxy-rotasjon)
  1. Oppstart av gjennomgang:

    • FlowHunt starter en domenegjennomgang av flowhunt.io og målretter alle tilgjengelige sider på domenet (f.eks. flowhunt.io, flowhunt.io/blog, flowhunt.io/articles osv.).
  2. URL-filtrering brukt:

    • Verktøyet vurderer hver oppdaget URL opp mot mønstrene /blog/, /articles/ og /knowledge/.
    • Kun URL-er som inneholder disse mønstrene (f.eks. flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) inkluderes i gjennomgangen.
    • Andre URL-er, som flowhunt.io/about, flowhunt.io/pricing eller flowhunt.io/contact, utelates fordi de ikke matcher de spesifiserte mønstrene.
  3. Gjennomførsel av gjennomgang:

    • Verktøyet behandler kun URL-er som matcher /blog/, /articles/ eller /knowledge/ og indekserer innholdet for AI-agentens kunnskapsbase.
    • Siden nettleserrendering, lenkefølging, skjermbilder og proxy-rotasjon er deaktivert, blir gjennomgangen lett og fokuserer kun på statisk innhold fra de inkluderte URL-ene.
  4. Resultat:

    • Kunnskapsbasen til AI-agenten oppdateres med nytt innhold fra flowhunt.io-sider under stiene /blog/, /articles/ og /knowledge/.
    • Gjennomgangen kjøres ukentlig for å sikre at kunnskapsbasen holdes oppdatert med nye eller endrede sider innenfor disse seksjonene uten manuell innsats.

Egendefinerte headers: Legg til egendefinerte HTTP-headers for gjennomgangsforespørsler. Bruk formatet HEADER=Verdi (én per linje): Denne funksjonen er svært nyttig for å tilpasse gjennomganger til bestemte nettstedsbehov. Med egendefinerte headers kan brukere autentisere forespørsler for tilgang til begrenset innhold, etterligne spesifikk nettleseratferd eller etterkomme et nettsteds API- eller tilgangspolicy. For eksempel kan en Authorization-header gi tilgang til beskyttede sider, mens en egendefinert User-Agent kan bidra til å unngå botdeteksjon eller sikre kompatibilitet med sider som blokkerer visse crawlere. Denne fleksibiliteten gir mer nøyaktig og omfattende datainnsamling, slik at det blir enklere å indeksere relevant innhold for en AI-agentkunnskapsbase samtidig som retningslinjer for sikkerhet og tilgang følges.

MYHEADER=Enhver verdi
Authorization=Bearer token123
User-Agent=Custom crawler

Hvordan opprette en tidsplan

  1. Gå til Tidsplaner i FlowHunt-panelet ditt Naviger til Tidsplaner

  2. Klikk “Legg til ny tidsplan” Klikk Legg til ny tidsplan

  3. Konfigurer grunninnstillinger:

    • Velg gjennomgangstype (Domene/Sitemap/URL/YouTube)
    • Angi frekvens (Daglig/Ukentlig/Månedlig/Årlig)
    • Skriv inn mål-URL
  4. Utvid avanserte alternativer om nødvendig:

    • Aktiver nettleserrendering for JS-tunge sider
    • Konfigurer lenkefølging for grundig gjennomgang
    • Sett opp URL-filtreringsregler
      • Legg til egendefinerte headers om nødvendig Utvid avanserte alternativer
  5. Klikk “Legg til ny tidsplan” for å aktivere

Beste praksis

For de fleste nettsteder:

  • Start med grunnleggende sitemap- eller domenegjennomgang
  • Bruk standardinnstillinger først
  • Legg til avanserte alternativer kun ved behov

For JavaScript-tunge nettsteder:

  • Aktiver “Med nettleser”
  • Vurder å ta skjermbilder for visuelt innhold
  • Kan kreve proxy-rotasjon dersom du blir blokkert

For store nettsteder:

  • Bruk URL-filtrering for å fokusere på relevant innhold
  • Sett passende frekvens for å balansere oppdateringsgrad og kredittbruk
  • Følg med på kredittforbruk med avanserte funksjoner

For nettbutikker eller dynamisk innhold:

  • Bruk daglig eller ukentlig frekvens
  • Aktiver lenkefølging for produktsider
  • Vurder egendefinerte headers for autentisert innhold

Kredittbruk

Avanserte funksjoner bruker ekstra kreditter:

  • Nettleserrendering gir økt prosesseringstid og kostnad
  • Lenkefølging gir flere gjennomgåtte sider
  • Skjermbilder gir mer visuell prosessering
  • Proxy-rotasjon gir ekstra nettverksbelastning

Følg med på kredittforbruket og juster tidsplanene etter behov og budsjett.

Feilsøking av vanlige problemer

Gjennomgang mislykkes:

  • Aktiver “Med nettleser” for JavaScript-avhengige nettsteder
  • Legg til “Med proxy-rotasjon” hvis du blokkeres av WAF
  • Sjekk egendefinerte headers for autentisering

For mange/få sider:

  • Bruk “Hopp over matchende URL-er” for å ekskludere uønsket innhold
  • Bruk “Indekser kun matchende URL-er” for å fokusere på spesifikke seksjoner
  • Juster lenkefølgingsinnstillinger

Manglende innhold:

  • Aktiver “Følg lenker” hvis sitemap er ufullstendig
  • Sjekk at URL-filtreringsregler ikke er for strenge
  • Kontroller at mål-URL-en er tilgjengelig

Lær mer

Tidsplaner
Tidsplaner

Tidsplaner

Tidsplan-funksjonen i FlowHunt lar deg periodisk gjennomgå domener og YouTube-kanaler, slik at chatbotene og flytene dine alltid er oppdatert med den nyeste inf...

2 min lesing
AI Schedules +4
Calendly
Calendly

Calendly

Integrer FlowHunt med Calendly for å automatisere møtescheduling, administrere avtaler og synkronisere kalendere sømløst med AI-drevne arbeidsflyter.

3 min lesing
AI Calendly +3