Automatisierte Website-Crawls planen

Automatisierte Website-Crawls planen

Schedules Crawling AI Agent Knowledge Base

Mit der Zeitplan-Funktion von FlowHunt können Sie das Crawlen und Indexieren von Websites, Sitemaps, Domains und YouTube-Kanälen automatisieren. So bleibt die Wissensdatenbank Ihres KI-Agenten ohne manuellen Aufwand stets mit aktuellen Inhalten versorgt.

So funktioniert die Zeitplanung

  • Automatisiertes Crawling:
    Richten Sie wiederkehrende Crawls ein, die täglich, wöchentlich, monatlich oder jährlich ausgeführt werden, um Ihre Wissensdatenbank aktuell zu halten.

  • Verschiedene Crawl-Typen:
    Wählen Sie je nach Inhaltsquelle zwischen Domain-Crawl, Sitemap-Crawl, URL-Crawl oder YouTube-Kanal-Crawl.

  • Erweiterte Optionen:
    Konfigurieren Sie Browser-Rendering, Link-Following, Screenshots, Proxy-Rotation und URL-Filterung für optimale Ergebnisse.

Optionen zur Zeitplan-Konfiguration

Grundeinstellungen

Typ: Wählen Sie Ihre Crawl-Methode:

  • Domain-Crawl: Eine gesamte Domain systematisch crawlen
  • Sitemap-Crawl: Die sitemap.xml der Website für effizientes Crawling nutzen
  • URL-Crawl: Bestimmte URLs oder Seiten gezielt crawlen
  • YouTube-Kanal-Crawl: Videoinhalte von YouTube-Kanälen indexieren

Häufigkeit: Legen Sie fest, wie oft der Crawl ausgeführt wird:

  • Täglich, Wöchentlich, Monatlich oder Jährlich

URL: Geben Sie die Ziel-URL, Domain oder den YouTube-Kanal zum Crawlen ein

Erweiterte Crawling-Optionen

Mit Browser (zusätzliche Credits): Aktivieren Sie dies beim Crawlen von JavaScript-lastigen Websites, die vollständiges Browser-Rendering erfordern. Diese Option ist langsamer und teurer, aber für Seiten notwendig, die Inhalte dynamisch laden.

Links folgen (zusätzliche Credits): Verarbeitet zusätzliche URLs, die auf Seiten gefunden werden. Nützlich, wenn Sitemaps nicht alle URLs enthalten, kann aber viele Credits verbrauchen, da gefundene Links gecrawlt werden.

Screenshot erstellen (zusätzliche Credits): Fertigt während des Crawlings Screenshots an. Hilfreich für Websites ohne og:images oder wenn für die KI-Bearbeitung visueller Kontext benötigt wird.

Mit Proxy-Rotation (zusätzliche Credits): Wechselt für jede Anfrage die IP-Adresse, um der Erkennung durch Web Application Firewalls (WAF) oder Anti-Bot-Systeme zu entgehen.

URL-Filterung

Übereinstimmende URLs überspringen: Geben Sie Zeichenketten (eine pro Zeile) ein, um URLs mit diesen Mustern vom Crawling auszuschließen. Beispiel:

/admin/
/login
.pdf

Beispiel: flowhunt.io crawlen mit ausgelassenem /blog

Dieses Beispiel erklärt, was passiert, wenn Sie die Zeitplan-Funktion von FlowHunt nutzen, um die Domain flowhunt.io zu crawlen und dabei /blog als übereinstimmende URL im URL-Filter ausschließen.

Konfigurationseinstellungen

  • Typ: Domain-Crawl
  • URL: flowhunt.io
  • Häufigkeit: Wöchentlich
  • URL-Filter (Übereinstimmende URLs überspringen): /blog
  • Weitere Einstellungen: Standard (kein Browser-Rendering, kein Link-Following, keine Screenshots, keine Proxy-Rotation)

Ablauf

  1. Crawl-Start:

    • FlowHunt startet einen Domain-Crawl von flowhunt.io und erfasst alle zugänglichen Seiten der Domain (z. B. flowhunt.io, flowhunt.io/features, flowhunt.io/pricing usw.).
  2. Angewandte URL-Filterung:

    • Der Crawler prüft jede gefundene URL auf das Auslassungsmuster /blog.
    • Jede URL, die /blog enthält (z. B. flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category), wird vom Crawling ausgeschlossen.
    • Andere URLs wie flowhunt.io/about, flowhunt.io/contact oder flowhunt.io/docs werden gecrawlt, da sie nicht dem /blog-Muster entsprechen.
  3. Crawl-Ausführung:

    • Der Crawler verarbeitet systematisch die verbleibenden URLs auf flowhunt.io und indexiert deren Inhalte für die Wissensdatenbank Ihres KI-Agenten.
    • Da Browser-Rendering, Link-Following, Screenshots und Proxy-Rotation deaktiviert sind, ist der Crawl ressourcenschonend und konzentriert sich nur auf statische Inhalte der nicht ausgeschlossenen URLs.
  4. Ergebnis:

    • Die Wissensdatenbank Ihres KI-Agenten wird mit aktuellen Inhalten von flowhunt.io aktualisiert – alles unterhalb des /blog-Pfads bleibt ausgeschlossen.
    • Der Crawl läuft wöchentlich, sodass die Wissensdatenbank ohne manuellen Eingriff mit neuen oder aktualisierten Seiten (außerhalb von /blog) aktuell bleibt.

Nur übereinstimmende URLs indexieren: Geben Sie Zeichenketten (eine pro Zeile) ein, um nur URLs mit diesen Mustern zu crawlen. Beispiel:

/blog/
/articles/
/knowledge/

Beispiel für das Einschließen übereinstimmender URLs

Konfigurationseinstellungen

  • Typ: Domain-Crawl
  • URL: flowhunt.io
  • Häufigkeit: Wöchentlich
  • URL-Filter (Nur übereinstimmende URLs indexieren):
    /blog/
    /articles/
    /knowledge/
    
  • Weitere Einstellungen: Standard (kein Browser-Rendering, kein Link-Following, keine Screenshots, keine Proxy-Rotation)
  1. Crawl-Start:

    • FlowHunt startet einen Domain-Crawl von flowhunt.io und erfasst alle zugänglichen Seiten der Domain (z. B. flowhunt.io, flowhunt.io/blog, flowhunt.io/articles usw.).
  2. Angewandte URL-Filterung:

    • Der Crawler prüft jede gefundene URL auf die Index-Muster /blog/, /articles/ und /knowledge/.
    • Nur URLs, die diese Muster enthalten (z. B. flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide), werden in den Crawl aufgenommen.
    • Andere URLs wie flowhunt.io/about, flowhunt.io/pricing oder flowhunt.io/contact werden ausgeschlossen, da sie nicht den angegebenen Mustern entsprechen.
  3. Crawl-Ausführung:

    • Der Crawler verarbeitet nur die URLs, die mit /blog/, /articles/ oder /knowledge/ übereinstimmen, und indexiert deren Inhalte für die Wissensdatenbank Ihres KI-Agenten.
    • Da Browser-Rendering, Link-Following, Screenshots und Proxy-Rotation deaktiviert sind, ist der Crawl ressourcenschonend und konzentriert sich nur auf statische Inhalte der eingeschlossenen URLs.
  4. Ergebnis:

    • Die Wissensdatenbank Ihres KI-Agenten wird mit aktuellen Inhalten von flowhunt.io-Seiten unter den Pfaden /blog/, /articles/ und /knowledge/ aktualisiert.
    • Der Crawl läuft wöchentlich, sodass die Wissensdatenbank ohne manuellen Eingriff stets mit neuen oder aktualisierten Seiten in diesen Bereichen versorgt wird.

Benutzerdefinierte Header: Fügen Sie benutzerdefinierte HTTP-Header für Crawl-Anfragen hinzu. Format: HEADER=Wert (eine pro Zeile): Diese Funktion ist besonders nützlich, um Crawls an spezielle Anforderungen von Websites anzupassen. Durch das Aktivieren benutzerdefinierter Header können Nutzer Anfragen authentifizieren, um auf geschützte Inhalte zuzugreifen, bestimmtes Browserverhalten nachahmen oder Vorgaben einer Website-API bzw. Zugriffsrichtlinien erfüllen. Beispielsweise ermöglicht ein Authorization-Header den Zugang zu geschützten Seiten, während ein benutzerdefinierter User-Agent hilft, Bot-Erkennung zu umgehen oder die Kompatibilität mit Seiten sicherzustellen, die bestimmte Crawler ausschließen. Diese Flexibilität sorgt für eine präzisere und umfassendere Datenerfassung und erleichtert das Indexieren relevanter Inhalte in einer KI-Wissensdatenbank unter Einhaltung der Sicherheits- und Zugriffsprotokolle der Website.

MYHEADER=Beliebiger Wert
Authorization=Bearer token123
User-Agent=Custom crawler

So erstellen Sie einen Zeitplan

  1. Navigieren Sie zu Zeitpläne in Ihrem FlowHunt-Dashboard Zu Zeitpläne navigieren

  2. Klicken Sie auf „Neuen Zeitplan hinzufügen“ Auf Neuen Zeitplan hinzufügen klicken

  3. Konfigurieren Sie die Grundeinstellungen:

    • Crawl-Typ auswählen (Domain/Sitemap/URL/YouTube)
    • Häufigkeit festlegen (Täglich/Wöchentlich/Monatlich/Jährlich)
    • Ziel-URL eingeben
  4. Erweiterte Optionen aufklappen falls nötig:

    • Browser-Rendering für JS-lastige Seiten aktivieren
    • Link-Following für umfassendes Crawling konfigurieren
    • URL-Filterregeln festlegen
      • Falls erforderlich, benutzerdefinierte Header hinzufügen Erweiterte Optionen aufklappen
  5. Klicken Sie auf „Neuen Zeitplan hinzufügen“, um zu aktivieren

Best Practices

Für die meisten Websites:

  • Beginnen Sie mit einfachem Sitemap- oder Domain-Crawl
  • Verwenden Sie zunächst die Standardeinstellungen
  • Erweiterte Optionen nur bei Bedarf hinzufügen

Für JavaScript-lastige Seiten:

  • Option „Mit Browser“ aktivieren
  • Erwägen Sie Screenshots für visuelle Inhalte
  • Proxy-Rotation ggf. bei Blockierung aktivieren

Für große Websites:

  • Nutzen Sie URL-Filter, um sich auf relevante Inhalte zu konzentrieren
  • Wählen Sie die Crawl-Häufigkeit passend zur Balance zwischen Aktualität und Credit-Verbrauch
  • Überwachen Sie den Credit-Verbrauch bei Nutzung erweiterter Funktionen

Für E-Commerce oder dynamische Inhalte:

  • Tägliche oder wöchentliche Häufigkeit wählen
  • Link-Following für Produktseiten aktivieren
  • Benutzerdefinierte Header für authentifizierte Inhalte in Betracht ziehen

Credit-Verbrauch

Erweiterte Funktionen verbrauchen zusätzliche Credits:

  • Browser-Rendering erhöht Verarbeitungszeit und Kosten
  • Link-Following vervielfacht die gecrawlten Seiten
  • Screenshots verursachen Mehraufwand für visuelle Verarbeitung
  • Proxy-Rotation erhöht den Netzwerkaufwand

Überwachen Sie Ihren Credit-Verbrauch und passen Sie Zeitpläne an Ihre Anforderungen und Ihr Budget an.

Häufige Probleme beheben

Crawl-Fehler:

  • „Mit Browser“ für JavaScript-abhängige Seiten aktivieren
  • „Mit Proxy-Rotation“ aktivieren, falls durch WAF blockiert
  • Überprüfen Sie benutzerdefinierte Header für Authentifizierung

Zu viele/wenige Seiten:

  • „Übereinstimmende URLs überspringen“, um unerwünschte Inhalte auszuschließen
  • „Nur übereinstimmende URLs indexieren“, um sich auf bestimmte Bereiche zu konzentrieren
  • Link-Following-Einstellungen anpassen

Fehlende Inhalte:

  • „Links folgen“ aktivieren, wenn die Sitemap unvollständig ist
  • Prüfen, dass URL-Filterregeln nicht zu restriktiv sind
  • Sicherstellen, dass die Ziel-URL erreichbar ist

Mehr erfahren

Zeitpläne
Zeitpläne

Zeitpläne

Die Funktion Zeitpläne in FlowHunt ermöglicht es Ihnen, Domains und YouTube-Kanäle regelmäßig zu durchsuchen, sodass Ihre Chatbots und Flows stets mit den neues...

3 Min. Lesezeit
AI Schedules +4
KI-Content-Planer mit Google-Recherche
KI-Content-Planer mit Google-Recherche

KI-Content-Planer mit Google-Recherche

Transformieren Sie Ihre Content-Strategie mit unserem KI-gestützten Content-Planer, der fortschrittliche KI-Funktionen mit Echtzeit-Google-Recherche kombiniert....

2 Min. Lesezeit
Content Planning AI +4
KI-Blog-Einleitungsgenerator & Content-Planer
KI-Blog-Einleitungsgenerator & Content-Planer

KI-Blog-Einleitungsgenerator & Content-Planer

Transformieren Sie Ihren Content-Erstellungsprozess mit unserem KI-gestützten Blog-Einleitungsgenerator & Content-Planer. Durch die Nutzung von Echtzeit-Recherc...

2 Min. Lesezeit
AI Content Writing +4