Schemalägg automatiserade webbplatsgenomsökningar

Schemalägg automatiserade webbplatsgenomsökningar

Schedules Crawling AI Agent Knowledge Base

FlowHunts schemaläggningsfunktion gör det möjligt att automatisera genomsökning och indexering av webbplatser, sitemaps, domäner och YouTube-kanaler. Det säkerställer att din AI Agents kunskapsbas hålls aktuell med nytt innehåll utan manuell insats.

Så fungerar schemaläggningen

  • Automatiserad genomsökning:
    Ställ in återkommande genomsökningar som körs dagligen, veckovis, månadsvis eller årligen för att hålla din kunskapsbas uppdaterad.

  • Flera genomsökningstyper:
    Välj mellan Domängenomsökning, Sitemap-genomsökning, URL-genomsökning eller YouTube-kanalsgenomsökning beroende på din innehållskälla.

  • Avancerade alternativ:
    Konfigurera webbläsarrendering, länkföljning, skärmdumpar, proxy-rotation och URL-filtrering för optimala resultat.

Alternativ för schemakonfiguration

Grundinställningar

Typ: Välj din genomsökningsmetod:

  • Domängenomsökning: Genomsök en hel domän systematiskt
  • Sitemap-genomsökning: Använd webbplatsens sitemap.xml för effektiv genomsökning
  • URL-genomsökning: Rikta in dig på specifika URL:er eller sidor
  • YouTube-kanalsgenomsökning: Indexera videoinnehåll från YouTube-kanaler

Frekvens: Ställ in hur ofta genomsökningen ska köras:

  • Dagligen, Veckovis, Månadsvis eller Årligen

URL: Ange mål-URL, domän eller YouTube-kanal att genomsöka

Avancerade genomsökningsalternativ

Med webbläsare (extra krediter): Aktivera när du genomsöker JavaScript-tunga webbplatser som kräver fullständig webbläsarrendering. Detta alternativ är långsammare och dyrare men nödvändigt för sidor som laddar innehåll dynamiskt.

Följ länkar (extra krediter): Bearbeta ytterligare URL:er som hittas inom sidor. Användbart när sitemaps inte innehåller alla URL:er, men kan förbruka mycket krediter då även upptäckta länkar genomsöks.

Ta skärmdump (extra krediter): Ta visuella skärmdumpar under genomsökningen. Hjälpsamt för webbplatser utan og:images eller de som kräver visuell kontext för AI-bearbetning.

Med proxy-rotation (extra krediter): Rotera IP-adresser för varje förfrågan för att undvika upptäckt av webbapplikationsbrandväggar (WAF) eller antibot-system.

URL-filtrering

Hoppa över matchande URL:er: Ange strängar (en per rad) för att exkludera URL:er som innehåller dessa mönster från genomsökningen. Exempel:

/admin/
/login
.pdf

Exempel: Genomsöka flowhunt.io med /blog exkluderad

Detta exempel förklarar vad som händer när du använder FlowHunts schemaläggningsfunktion för att genomsöka domänen flowhunt.io medan du anger /blog som en matchande URL att hoppa över i inställningarna för URL-filtrering.

Konfigurationsinställningar

  • Typ: Domängenomsökning
  • URL: flowhunt.io
  • Frekvens: Veckovis
  • URL-filtrering (Hoppa över matchande URL:er): /blog
  • Övriga inställningar: Standard (ingen webbläsarrendering, ingen länkföljning, inga skärmdumpar, ingen proxy-rotation)

Vad händer

  1. Genomsökningsstart:

    • FlowHunt startar en domängenomsökning av flowhunt.io och riktar sig mot alla tillgängliga sidor på domänen (t.ex. flowhunt.io, flowhunt.io/features, flowhunt.io/pricing osv.).
  2. URL-filtrering tillämpas:

    • Genomsökaren utvärderar varje upptäckt URL mot hoppa över-mönstret /blog.
    • Alla URL:er som innehåller /blog (t.ex. flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) utesluts från genomsökningen.
    • Andra URL:er, såsom flowhunt.io/about, flowhunt.io/contact eller flowhunt.io/docs, genomsöks eftersom de inte matchar /blog.
  3. Genomsökningskörning:

    • Genomsökaren bearbetar systematiskt återstående URL:er på flowhunt.io och indexerar deras innehåll till din AI Agents kunskapsbas.
    • Eftersom webbläsarrendering, länkföljning, skärmdumpar och proxy-rotation är inaktiverade, är genomsökningen lättviktig och fokuserar endast på statiskt innehåll från icke-exkluderade URL:er.
  4. Resultat:

    • Din AI Agents kunskapsbas uppdateras med nytt innehåll från flowhunt.io, exklusive allt under sökvägen /blog.
    • Genomsökningen körs varje vecka och ser till att kunskapsbasen hålls aktuell med nya eller uppdaterade sidor (utanför /blog) utan manuell insats.

Indexera endast matchande URL:er: Ange strängar (en per rad) för att endast genomsöka URL:er som innehåller dessa mönster. Exempel:

/blog/
/articles/
/knowledge/

Exempel på att inkludera matchande URL:er

Konfigurationsinställningar

  • Typ: Domängenomsökning
  • URL: flowhunt.io
  • Frekvens: Veckovis
  • URL-filtrering (Indexera endast matchande URL:er):
    /blog/
    /articles/
    /knowledge/
    
  • Övriga inställningar: Standard (ingen webbläsarrendering, ingen länkföljning, inga skärmdumpar, ingen proxy-rotation)
  1. Genomsökningsstart:

    • FlowHunt startar en domängenomsökning av flowhunt.io och riktar sig mot alla tillgängliga sidor på domänen (t.ex. flowhunt.io, flowhunt.io/blog, flowhunt.io/articles osv.).
  2. URL-filtrering tillämpas:

    • Genomsökaren utvärderar varje upptäckt URL mot indexeringsmönstren /blog/, /articles/ och /knowledge/.
    • Endast URL:er som innehåller dessa mönster (t.ex. flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) inkluderas i genomsökningen.
    • Andra URL:er, såsom flowhunt.io/about, flowhunt.io/pricing eller flowhunt.io/contact, utesluts eftersom de inte matchar angivna mönster.
  3. Genomsökningskörning:

    • Genomsökaren bearbetar endast URL:er som matchar /blog/, /articles/ eller /knowledge/ och indexerar deras innehåll till din AI Agents kunskapsbas.
    • Eftersom webbläsarrendering, länkföljning, skärmdumpar och proxy-rotation är inaktiverade, är genomsökningen lättviktig och fokuserar endast på statiskt innehåll från de inkluderade URL:erna.
  4. Resultat:

    • Din AI Agents kunskapsbas uppdateras med nytt innehåll från flowhunt.io-sidor under sökvägarna /blog/, /articles/ och /knowledge/.
    • Genomsökningen körs varje vecka och ser till att kunskapsbasen hålls aktuell med nya eller uppdaterade sidor inom dessa sektioner utan manuell insats.

Anpassade headers: Lägg till anpassade HTTP headers för genomsökningsförfrågningar. Formatera som HEADER=Värde (en per rad): Den här funktionen är mycket användbar för att anpassa genomsökningar till specifika webbplatskrav. Genom att aktivera anpassade headers kan användare autentisera förfrågningar för att få tillgång till skyddat innehåll, imitera specifika webbläsarbeteenden eller uppfylla en webbplats API eller åtkomstpolicies. Till exempel kan en Authorization-header ge tillgång till skyddade sidor, medan en anpassad User-Agent kan hjälpa till att undvika bot-detektering eller säkerställa kompatibilitet med sidor som begränsar vissa genomsökare. Denna flexibilitet ger mer exakt och omfattande datainsamling, vilket gör det enklare att indexera relevant innehåll till en AI Agents kunskapsbas samtidigt som webbplatsens säkerhets- eller åtkomstprotokoll respekteras.

MYHEADER=Valfritt värde
Authorization=Bearer token123
User-Agent=Custom crawler

Så här skapar du ett schema

  1. Navigera till Scheman i din FlowHunt-instrumentpanel
    Navigera till Scheman

  2. Klicka på “Lägg till nytt schema”
    Klicka på Lägg till nytt schema

  3. Konfigurera grundinställningar:

    • Välj genomsökningstyp (Domän/Sitemap/URL/YouTube)
    • Ställ in frekvens (Dagligen/Veckovis/Månadsvis/Årligen)
    • Ange mål-URL
  4. Expandera avancerade alternativ vid behov:

    • Aktivera webbläsarrendering för JS-tunga sidor
    • Konfigurera länkföljning för omfattande genomsökning
    • Ställ in regler för URL-filtrering
      • Lägg till anpassade headers vid behov Expandera avancerade alternativ
  5. Klicka på “Lägg till nytt schema” för att aktivera

Bästa praxis

För de flesta webbplatser:

  • Börja med grundläggande sitemap- eller domängenomsökning
  • Använd standardinställningarna till att börja med
  • Lägg till avancerade alternativ endast om det behövs

För JavaScript-tunga sidor:

  • Aktivera alternativet “Med webbläsare”
  • Överväg att ta skärmdumpar för visuellt innehåll
  • Kan kräva proxy-rotation om du blir blockerad

För stora webbplatser:

  • Använd URL-filtrering för att fokusera på relevant innehåll
  • Sätt lämplig frekvens för att balansera aktualitet och kreditförbrukning
  • Övervaka kreditförbrukningen vid användning av avancerade funktioner

För e-handel eller dynamiskt innehåll:

  • Använd daglig eller veckovis frekvens
  • Aktivera länkföljning för produktsidor
  • Överväg anpassade headers för autentiserat innehåll

Kreditförbrukning

Avancerade funktioner förbrukar extra krediter:

  • Webbläsarrendering ökar processtid och kostnad
  • Länkföljning multiplicerar antalet genomsökta sidor
  • Skärmdumpar ger visuell bearbetningsbelastning
  • Proxy-rotation ökar nätverksbelastningen

Övervaka din kreditförbrukning och justera scheman utifrån dina behov och din budget.

Felsökning av vanliga problem

Genomsökningsfel:

  • Aktivera “Med webbläsare” för JavaScript-beroende sidor
  • Lägg till “Med proxy-rotation” om du blockeras av WAF
  • Kontrollera anpassade headers för autentisering

För många/för få sidor:

  • Använd “Hoppa över matchande URL:er” för att exkludera oönskat innehåll
  • Använd “Indexera endast matchande URL:er” för att fokusera på specifika sektioner
  • Justera inställningarna för länkföljning

Saknat innehåll:

  • Aktivera “Följ länkar” om sitemap är ofullständig
  • Kontrollera att URL-filtreringsreglerna inte är för restriktiva
  • Verifiera att mål-URL:en är tillgänglig

Lär dig mer

Scheman
Scheman

Scheman

Scheman-funktionen i FlowHunt låter dig regelbundet genomsöka domäner och YouTube-kanaler, så att dina chatbottar och flöden hålls uppdaterade med den senaste i...

2 min läsning
AI Schedules +4