Automatisierte Website-Crawls planen

Mit der Zeitplan-Funktion von FlowHunt können Sie das Crawlen und Indexieren von Websites, Sitemaps, Domains und YouTube-Kanälen automatisieren. So bleibt die Wissensdatenbank Ihres KI-Agenten ohne manuellen Aufwand stets mit aktuellen Inhalten versorgt.

So funktioniert die Zeitplanung

Automatisiertes Crawling:
Richten Sie wiederkehrende Crawls ein, die täglich, wöchentlich, monatlich oder jährlich ausgeführt werden, um Ihre Wissensdatenbank aktuell zu halten.
Verschiedene Crawl-Typen:
Wählen Sie je nach Inhaltsquelle zwischen Domain-Crawl, Sitemap-Crawl, URL-Crawl oder YouTube-Kanal-Crawl.
Erweiterte Optionen:
Konfigurieren Sie Browser-Rendering, Link-Following, Screenshots, Proxy-Rotation und URL-Filterung für optimale Ergebnisse.

Optionen zur Zeitplan-Konfiguration

Grundeinstellungen

Typ: Wählen Sie Ihre Crawl-Methode:

Domain-Crawl: Eine gesamte Domain systematisch crawlen
Sitemap-Crawl: Die sitemap.xml der Website für effizientes Crawling nutzen
URL-Crawl: Bestimmte URLs oder Seiten gezielt crawlen
YouTube-Kanal-Crawl: Videoinhalte von YouTube-Kanälen indexieren

Häufigkeit: Legen Sie fest, wie oft der Crawl ausgeführt wird:

Täglich, Wöchentlich, Monatlich oder Jährlich

URL: Geben Sie die Ziel-URL, Domain oder den YouTube-Kanal zum Crawlen ein

Erweiterte Crawling-Optionen

Mit Browser (zusätzliche Credits): Aktivieren Sie dies beim Crawlen von JavaScript-lastigen Websites, die vollständiges Browser-Rendering erfordern. Diese Option ist langsamer und teurer, aber für Seiten notwendig, die Inhalte dynamisch laden.

Links folgen (zusätzliche Credits): Verarbeitet zusätzliche URLs, die auf Seiten gefunden werden. Nützlich, wenn Sitemaps nicht alle URLs enthalten, kann aber viele Credits verbrauchen, da gefundene Links gecrawlt werden.

Screenshot erstellen (zusätzliche Credits): Fertigt während des Crawlings Screenshots an. Hilfreich für Websites ohne og:images oder wenn für die KI-Bearbeitung visueller Kontext benötigt wird.

Mit Proxy-Rotation (zusätzliche Credits): Wechselt für jede Anfrage die IP-Adresse, um der Erkennung durch Web Application Firewalls (WAF) oder Anti-Bot-Systeme zu entgehen.

URL-Filterung

Übereinstimmende URLs überspringen: Geben Sie Zeichenketten (eine pro Zeile) ein, um URLs mit diesen Mustern vom Crawling auszuschließen. Beispiel:

/admin/
/login
.pdf

Beispiel: flowhunt.io crawlen mit ausgelassenem /blog

Dieses Beispiel erklärt, was passiert, wenn Sie die Zeitplan-Funktion von FlowHunt nutzen, um die Domain flowhunt.io zu crawlen und dabei /blog als übereinstimmende URL im URL-Filter ausschließen.

Konfigurationseinstellungen

Typ: Domain-Crawl
URL: flowhunt.io
Häufigkeit: Wöchentlich
URL-Filter (Übereinstimmende URLs überspringen): /blog
Weitere Einstellungen: Standard (kein Browser-Rendering, kein Link-Following, keine Screenshots, keine Proxy-Rotation)

Ablauf

Crawl-Start:
- FlowHunt startet einen Domain-Crawl von flowhunt.io und erfasst alle zugänglichen Seiten der Domain (z. B. flowhunt.io, flowhunt.io/features, flowhunt.io/pricing usw.).
Angewandte URL-Filterung:
- Der Crawler prüft jede gefundene URL auf das Auslassungsmuster /blog.
- Jede URL, die /blog enthält (z. B. flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category), wird vom Crawling ausgeschlossen.
- Andere URLs wie flowhunt.io/about, flowhunt.io/contact oder flowhunt.io/docs werden gecrawlt, da sie nicht dem /blog-Muster entsprechen.
Crawl-Ausführung:
- Der Crawler verarbeitet systematisch die verbleibenden URLs auf flowhunt.io und indexiert deren Inhalte für die Wissensdatenbank Ihres KI-Agenten.
- Da Browser-Rendering, Link-Following, Screenshots und Proxy-Rotation deaktiviert sind, ist der Crawl ressourcenschonend und konzentriert sich nur auf statische Inhalte der nicht ausgeschlossenen URLs.
Ergebnis:
- Die Wissensdatenbank Ihres KI-Agenten wird mit aktuellen Inhalten von flowhunt.io aktualisiert – alles unterhalb des /blog-Pfads bleibt ausgeschlossen.
- Der Crawl läuft wöchentlich, sodass die Wissensdatenbank ohne manuellen Eingriff mit neuen oder aktualisierten Seiten (außerhalb von /blog) aktuell bleibt.

Nur übereinstimmende URLs indexieren: Geben Sie Zeichenketten (eine pro Zeile) ein, um nur URLs mit diesen Mustern zu crawlen. Beispiel:

/blog/
/articles/
/knowledge/

Beispiel für das Einschließen übereinstimmender URLs

Konfigurationseinstellungen

Typ: Domain-Crawl
URL: flowhunt.io
Häufigkeit: Wöchentlich
URL-Filter (Nur übereinstimmende URLs indexieren):
```
/blog/
/articles/
/knowledge/
```
Weitere Einstellungen: Standard (kein Browser-Rendering, kein Link-Following, keine Screenshots, keine Proxy-Rotation)

Crawl-Start:
- FlowHunt startet einen Domain-Crawl von flowhunt.io und erfasst alle zugänglichen Seiten der Domain (z. B. flowhunt.io, flowhunt.io/blog, flowhunt.io/articles usw.).
Angewandte URL-Filterung:
- Der Crawler prüft jede gefundene URL auf die Index-Muster /blog/, /articles/ und /knowledge/.
- Nur URLs, die diese Muster enthalten (z. B. flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide), werden in den Crawl aufgenommen.
- Andere URLs wie flowhunt.io/about, flowhunt.io/pricing oder flowhunt.io/contact werden ausgeschlossen, da sie nicht den angegebenen Mustern entsprechen.
Crawl-Ausführung:
- Der Crawler verarbeitet nur die URLs, die mit /blog/, /articles/ oder /knowledge/ übereinstimmen, und indexiert deren Inhalte für die Wissensdatenbank Ihres KI-Agenten.
- Da Browser-Rendering, Link-Following, Screenshots und Proxy-Rotation deaktiviert sind, ist der Crawl ressourcenschonend und konzentriert sich nur auf statische Inhalte der eingeschlossenen URLs.
Ergebnis:
- Die Wissensdatenbank Ihres KI-Agenten wird mit aktuellen Inhalten von flowhunt.io-Seiten unter den Pfaden /blog/, /articles/ und /knowledge/ aktualisiert.
- Der Crawl läuft wöchentlich, sodass die Wissensdatenbank ohne manuellen Eingriff stets mit neuen oder aktualisierten Seiten in diesen Bereichen versorgt wird.

Benutzerdefinierte Header: Fügen Sie benutzerdefinierte HTTP-Header für Crawl-Anfragen hinzu. Format: HEADER=Wert (eine pro Zeile): Diese Funktion ist besonders nützlich, um Crawls an spezielle Anforderungen von Websites anzupassen. Durch das Aktivieren benutzerdefinierter Header können Nutzer Anfragen authentifizieren, um auf geschützte Inhalte zuzugreifen, bestimmtes Browserverhalten nachahmen oder Vorgaben einer Website-API bzw. Zugriffsrichtlinien erfüllen. Beispielsweise ermöglicht ein Authorization-Header den Zugang zu geschützten Seiten, während ein benutzerdefinierter User-Agent hilft, Bot-Erkennung zu umgehen oder die Kompatibilität mit Seiten sicherzustellen, die bestimmte Crawler ausschließen. Diese Flexibilität sorgt für eine präzisere und umfassendere Datenerfassung und erleichtert das Indexieren relevanter Inhalte in einer KI-Wissensdatenbank unter Einhaltung der Sicherheits- und Zugriffsprotokolle der Website.

MYHEADER=Beliebiger Wert
Authorization=Bearer token123
User-Agent=Custom crawler

So erstellen Sie einen Zeitplan

Navigieren Sie zu Zeitpläne in Ihrem FlowHunt-Dashboard
Klicken Sie auf „Neuen Zeitplan hinzufügen“
Konfigurieren Sie die Grundeinstellungen:
- Crawl-Typ auswählen (Domain/Sitemap/URL/YouTube)
- Häufigkeit festlegen (Täglich/Wöchentlich/Monatlich/Jährlich)
- Ziel-URL eingeben
Erweiterte Optionen aufklappen falls nötig:
- Browser-Rendering für JS-lastige Seiten aktivieren
- Link-Following für umfassendes Crawling konfigurieren
- URL-Filterregeln festlegen
  - Falls erforderlich, benutzerdefinierte Header hinzufügen
Klicken Sie auf „Neuen Zeitplan hinzufügen“, um zu aktivieren

Best Practices

Für die meisten Websites:

Beginnen Sie mit einfachem Sitemap- oder Domain-Crawl
Verwenden Sie zunächst die Standardeinstellungen
Erweiterte Optionen nur bei Bedarf hinzufügen

Für JavaScript-lastige Seiten:

Option „Mit Browser“ aktivieren
Erwägen Sie Screenshots für visuelle Inhalte
Proxy-Rotation ggf. bei Blockierung aktivieren

Für große Websites:

Nutzen Sie URL-Filter, um sich auf relevante Inhalte zu konzentrieren
Wählen Sie die Crawl-Häufigkeit passend zur Balance zwischen Aktualität und Credit-Verbrauch
Überwachen Sie den Credit-Verbrauch bei Nutzung erweiterter Funktionen

Für E-Commerce oder dynamische Inhalte:

Tägliche oder wöchentliche Häufigkeit wählen
Link-Following für Produktseiten aktivieren
Benutzerdefinierte Header für authentifizierte Inhalte in Betracht ziehen

Credit-Verbrauch

Erweiterte Funktionen verbrauchen zusätzliche Credits:

Browser-Rendering erhöht Verarbeitungszeit und Kosten
Link-Following vervielfacht die gecrawlten Seiten
Screenshots verursachen Mehraufwand für visuelle Verarbeitung
Proxy-Rotation erhöht den Netzwerkaufwand

Überwachen Sie Ihren Credit-Verbrauch und passen Sie Zeitpläne an Ihre Anforderungen und Ihr Budget an.

Häufige Probleme beheben

Crawl-Fehler:

„Mit Browser“ für JavaScript-abhängige Seiten aktivieren
„Mit Proxy-Rotation“ aktivieren, falls durch WAF blockiert
Überprüfen Sie benutzerdefinierte Header für Authentifizierung

Zu viele/wenige Seiten:

„Übereinstimmende URLs überspringen“, um unerwünschte Inhalte auszuschließen
„Nur übereinstimmende URLs indexieren“, um sich auf bestimmte Bereiche zu konzentrieren
Link-Following-Einstellungen anpassen

Fehlende Inhalte:

„Links folgen“ aktivieren, wenn die Sitemap unvollständig ist
Prüfen, dass URL-Filterregeln nicht zu restriktiv sind
Sicherstellen, dass die Ziel-URL erreichbar ist

Automatisierte Website-Crawls planen

So funktioniert die Zeitplanung

Optionen zur Zeitplan-Konfiguration

Grundeinstellungen

Erweiterte Crawling-Optionen

URL-Filterung

Beispiel: flowhunt.io crawlen mit ausgelassenem /blog

Beispiel für das Einschließen übereinstimmender URLs

So erstellen Sie einen Zeitplan

Best Practices

Credit-Verbrauch

Häufige Probleme beheben

Mehr erfahren

Zeitpläne

KI-Content-Planer mit Google-Recherche

KI-Blog-Einleitungsgenerator & Content-Planer

Automatisierte Website-Crawls planen

So funktioniert die Zeitplanung

Optionen zur Zeitplan-Konfiguration

Grundeinstellungen

Erweiterte Crawling-Optionen

URL-Filterung

Beispiel: flowhunt.io crawlen mit ausgelassenem /blog

Beispiel für das Einschließen übereinstimmender URLs

So erstellen Sie einen Zeitplan

Best Practices

Credit-Verbrauch

Häufige Probleme beheben

Mehr erfahren

Zeitpläne

KI-Content-Planer mit Google-Recherche

KI-Blog-Einleitungsgenerator & Content-Planer

Cookie-Einstellungen

Notwendige Cookies

Analyse-Cookies