Planification des crawls automatisés de sites web

Planification des crawls automatisés de sites web

Schedules Crawling AI Agent Knowledge Base

La fonctionnalité de planification de FlowHunt vous permet d’automatiser le crawling et l’indexation de sites web, sitemaps, domaines et chaînes YouTube. Cela garantit que la base de connaissances de votre Agent IA reste à jour avec du contenu frais, sans intervention manuelle.

Comment fonctionne la planification

  • Crawling automatisé :
    Programmez des crawls récurrents quotidiens, hebdomadaires, mensuels ou annuels pour garder votre base de connaissances à jour.

  • Plusieurs types de crawl :
    Choisissez entre le crawl de domaine, de sitemap, d’URL ou de chaîne YouTube selon votre source de contenu.

  • Options avancées :
    Configurez le rendu du navigateur, le suivi des liens, la capture d’écrans, la rotation de proxy et le filtrage d’URL pour des résultats optimaux.

Options de configuration du planning

Paramètres de base

Type : Choisissez votre méthode de crawl :

  • Crawl de domaine : Parcourt de façon systématique l’ensemble d’un domaine
  • Crawl de sitemap : Utilise le fichier sitemap.xml du site pour un crawl efficace
  • Crawl d’URL : Cible des URLs ou pages spécifiques
  • Crawl de chaîne YouTube : Indexe le contenu vidéo depuis des chaînes YouTube

Fréquence : Définissez la fréquence d’exécution du crawl :

  • Quotidienne, Hebdomadaire, Mensuelle ou Annuelle

URL : Saisissez l’URL cible, le domaine ou la chaîne YouTube à crawler

Options de crawling avancées

Avec navigateur (crédits supplémentaires) : À activer lors du crawl de sites riches en JavaScript nécessitant un rendu complet via navigateur. Cette option est plus lente et coûteuse, mais indispensable pour les sites qui chargent le contenu dynamiquement.

Suivre les liens (crédits supplémentaires) : Crawl également les URLs additionnelles trouvées dans les pages. Utile si le sitemap n’inclut pas toutes les URLs, mais peut consommer beaucoup de crédits car il parcourt tous les liens découverts.

Prendre une capture d’écran (crédits supplémentaires) : Capture des captures d’écran lors du crawl. Pratique pour les sites sans og:images ou nécessitant un contexte visuel pour le traitement IA.

Avec rotation de proxy (crédits supplémentaires) : Fait tourner les adresses IP pour chaque requête afin d’éviter la détection par les firewalls applicatifs (WAF) ou systèmes anti-bot.

Filtrage d’URL

Ignorer les URLs correspondantes : Saisissez des chaînes (une par ligne) pour exclure du crawl les URLs contenant ces motifs. Exemple :

/admin/
/login
.pdf

Exemple : Crawler flowhunt.io en ignorant /blog

Cet exemple explique ce qu’il se passe lorsque vous utilisez la fonction de planification de FlowHunt pour crawler le domaine flowhunt.io tout en indiquant /blog comme motif d’URL à ignorer dans les paramètres de filtrage.

Paramètres de configuration

  • Type : Crawl de domaine
  • URL : flowhunt.io
  • Fréquence : Hebdomadaire
  • Filtrage d’URL (ignorer les URLs correspondantes) : /blog
  • Autres paramètres : Par défaut (pas de rendu navigateur, pas de suivi des liens, pas de captures d’écran, pas de rotation de proxy)

Déroulement

  1. Début du crawl :

    • FlowHunt lance un crawl de domaine sur flowhunt.io, ciblant toutes les pages accessibles du domaine (ex : flowhunt.io, flowhunt.io/features, flowhunt.io/pricing, etc.).
  2. Application du filtrage d’URL :

    • Le crawler vérifie chaque URL découverte par rapport au motif à ignorer /blog.
    • Toute URL contenant /blog (ex : flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) est exclue du crawl.
    • Les autres URLs comme flowhunt.io/about, flowhunt.io/contact ou flowhunt.io/docs sont crawlées car elles ne correspondent pas au motif /blog.
  3. Exécution du crawl :

    • Le crawler traite de façon systématique les autres URLs de flowhunt.io, indexant leur contenu dans la base de connaissances de votre Agent IA.
    • Comme le rendu navigateur, le suivi des liens, les captures d’écran et la rotation de proxy sont désactivés, le crawl est léger et se concentre sur le contenu statique des URLs non exclues.
  4. Résultat :

    • La base de connaissances de votre Agent IA est mise à jour avec du contenu frais provenant de flowhunt.io, en excluant tout ce qui se trouve sous le chemin /blog.
    • Le crawl s’exécute chaque semaine, ce qui garantit une base de connaissances à jour avec les nouvelles pages ou mises à jour (hors /blog) sans intervention manuelle.

Indexer uniquement les URLs correspondantes : Saisissez des chaînes (une par ligne) pour ne crawler que les URLs contenant ces motifs. Exemple :

/blog/
/articles/
/knowledge/

Exemple d’inclusion de motifs d’URL

Paramètres de configuration

  • Type : Crawl de domaine
  • URL : flowhunt.io
  • Fréquence : Hebdomadaire
  • Filtrage d’URL (indexer uniquement les URLs correspondantes) :
    /blog/
    /articles/
    /knowledge/
    
  • Autres paramètres : Par défaut (pas de rendu navigateur, pas de suivi des liens, pas de captures d’écran, pas de rotation de proxy)
  1. Début du crawl :

    • FlowHunt lance un crawl de domaine sur flowhunt.io, ciblant toutes les pages accessibles du domaine (ex : flowhunt.io, flowhunt.io/blog, flowhunt.io/articles, etc.).
  2. Application du filtrage d’URL :

    • Le crawler vérifie chaque URL découverte selon les motifs /blog/, /articles/ et /knowledge/.
    • Seules les URLs contenant ces motifs (ex : flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) sont incluses dans le crawl.
    • Les autres URLs, comme flowhunt.io/about, flowhunt.io/pricing ou flowhunt.io/contact, sont exclues car elles ne correspondent pas aux motifs définis.
  3. Exécution du crawl :

    • Le crawler ne traite que les URLs correspondant à /blog/, /articles/ ou /knowledge/, indexant leur contenu dans la base de connaissances de votre Agent IA.
    • Comme le rendu navigateur, le suivi des liens, les captures d’écran et la rotation de proxy sont désactivés, le crawl est léger et se concentre sur le contenu statique des URLs incluses.
  4. Résultat :

    • La base de connaissances de votre Agent IA est mise à jour avec du contenu frais issu des pages de flowhunt.io situées sous /blog/, /articles/ et /knowledge/.
    • Le crawl s’exécute chaque semaine, assurant l’actualisation de la base de connaissances avec les nouveautés ou mises à jour dans ces sections sans intervention manuelle.

En-têtes personnalisés : Ajoutez des en-têtes HTTP personnalisés pour les requêtes de crawl. Format : HEADER=Valeur (un par ligne) : Cette fonctionnalité est très utile pour adapter les crawls aux exigences spécifiques d’un site web. En activant les en-têtes personnalisés, les utilisateurs peuvent authentifier les requêtes pour accéder à du contenu restreint, imiter le comportement d’un navigateur particulier ou se conformer à une API ou politique d’accès du site. Par exemple, définir l’en-tête Authorization peut donner accès à des pages protégées, tandis qu’un User-Agent personnalisé peut aider à éviter la détection de bots ou garantir la compatibilité avec des sites restreignant certains crawlers. Cette flexibilité permet une collecte de données plus précise et exhaustive, facilitant l’indexation de contenu pertinent pour la base de connaissances d’un Agent IA tout en respectant les protocoles de sécurité ou d’accès du site.

MYHEADER=Any value
Authorization=Bearer token123
User-Agent=Custom crawler

Comment créer un planning

  1. Allez dans Plannings sur votre tableau de bord FlowHunt Aller dans Plannings

  2. Cliquez sur “Ajouter un nouveau planning” Cliquer sur Ajouter un nouveau planning

  3. Configurez les paramètres de base :

    • Sélectionnez le type de crawl (Domaine/Sitemap/URL/YouTube)
    • Définissez la fréquence (Quotidienne/Hebdomadaire/Mensuelle/Annuelle)
    • Saisissez l’URL cible
  4. Déployez les options avancées si besoin :

    • Activez le rendu navigateur pour les sites riches en JS
    • Configurez le suivi des liens pour un crawl complet
    • Définissez les règles de filtrage d’URL
      • Ajoutez des en-têtes personnalisés si nécessaire Déployer les options avancées
  5. Cliquez sur “Ajouter un nouveau planning” pour activer

Bonnes pratiques

Pour la plupart des sites web :

  • Commencez par un crawl de sitemap ou de domaine basique
  • Utilisez les paramètres par défaut au départ
  • Ajoutez les options avancées uniquement si besoin

Pour les sites riches en JavaScript :

  • Activez l’option “Avec navigateur”
  • Pensez à prendre des captures d’écran pour le contenu visuel
  • La rotation de proxy peut s’avérer nécessaire en cas de blocage

Pour les sites volumineux :

  • Utilisez le filtrage d’URL pour cibler le contenu pertinent
  • Choisissez une fréquence adaptée pour équilibrer fraîcheur et consommation de crédits
  • Surveillez la consommation de crédits avec les fonctionnalités avancées

Pour l’e-commerce ou le contenu dynamique :

  • Utilisez une fréquence quotidienne ou hebdomadaire
  • Activez le suivi des liens pour les pages produits
  • Pensez aux en-têtes personnalisés pour le contenu authentifié

Consommation de crédits

Les fonctionnalités avancées consomment des crédits supplémentaires :

  • Le rendu navigateur augmente le temps de traitement et le coût
  • Le suivi des liens multiplie le nombre de pages crawlées
  • Les captures d’écran ajoutent une charge de traitement visuel
  • La rotation de proxy augmente la charge réseau

Surveillez votre consommation de crédits et ajustez les plannings selon vos besoins et votre budget.

Résolution des problèmes courants

Échecs de crawl :

  • Activez “Avec navigateur” pour les sites dépendants de JavaScript
  • Ajoutez “Avec rotation de proxy” si vous êtes bloqué par un WAF
  • Vérifiez les en-têtes personnalisés pour l’authentification

Trop/pas assez de pages :

  • Utilisez “Ignorer les URLs correspondantes” pour exclure le contenu indésirable
  • Utilisez “Indexer uniquement les URLs correspondantes” pour cibler des sections spécifiques
  • Ajustez les paramètres de suivi des liens

Contenu manquant :

  • Activez “Suivre les liens” si le sitemap est incomplet
  • Vérifiez que les règles de filtrage d’URL ne sont pas trop restrictives
  • Vérifiez que l’URL cible est accessible

En savoir plus

Générateur de plan de contenu SEO
Générateur de plan de contenu SEO

Générateur de plan de contenu SEO

Générez un plan de contenu optimisé pour le SEO en analysant les premiers résultats de recherche Google pour un mot-clé donné. Ce flux de travail utilise l'IA e...

4 min de lecture
Générateur de Plan de Blog IA
Générateur de Plan de Blog IA

Générateur de Plan de Blog IA

Transformez vos idées de blog en plans structurés et exploitables grâce à notre Générateur de Plan de Blog alimenté par l'IA. Cet outil intelligent combine la r...

2 min de lecture
AI Content Writing +4