Planification des crawls automatisés de sites web

La fonctionnalité de planification de FlowHunt vous permet d’automatiser le crawling et l’indexation de sites web, sitemaps, domaines et chaînes YouTube. Cela garantit que la base de connaissances de votre Agent IA reste à jour avec du contenu frais, sans intervention manuelle.

Comment fonctionne la planification

Crawling automatisé :
Programmez des crawls récurrents quotidiens, hebdomadaires, mensuels ou annuels pour garder votre base de connaissances à jour.
Plusieurs types de crawl :
Choisissez entre le crawl de domaine, de sitemap, d’URL ou de chaîne YouTube selon votre source de contenu.
Options avancées :
Configurez le rendu du navigateur, le suivi des liens, la capture d’écrans, la rotation de proxy et le filtrage d’URL pour des résultats optimaux.

Options de configuration du planning

Paramètres de base

Type : Choisissez votre méthode de crawl :

Crawl de domaine : Parcourt de façon systématique l’ensemble d’un domaine
Crawl de sitemap : Utilise le fichier sitemap.xml du site pour un crawl efficace
Crawl d’URL : Cible des URLs ou pages spécifiques
Crawl de chaîne YouTube : Indexe le contenu vidéo depuis des chaînes YouTube

Fréquence : Définissez la fréquence d’exécution du crawl :

Quotidienne, Hebdomadaire, Mensuelle ou Annuelle

URL : Saisissez l’URL cible, le domaine ou la chaîne YouTube à crawler

Options de crawling avancées

Avec navigateur (crédits supplémentaires) : À activer lors du crawl de sites riches en JavaScript nécessitant un rendu complet via navigateur. Cette option est plus lente et coûteuse, mais indispensable pour les sites qui chargent le contenu dynamiquement.

Suivre les liens (crédits supplémentaires) : Crawl également les URLs additionnelles trouvées dans les pages. Utile si le sitemap n’inclut pas toutes les URLs, mais peut consommer beaucoup de crédits car il parcourt tous les liens découverts.

Prendre une capture d’écran (crédits supplémentaires) : Capture des captures d’écran lors du crawl. Pratique pour les sites sans og:images ou nécessitant un contexte visuel pour le traitement IA.

Avec rotation de proxy (crédits supplémentaires) : Fait tourner les adresses IP pour chaque requête afin d’éviter la détection par les firewalls applicatifs (WAF) ou systèmes anti-bot.

Filtrage d’URL

Ignorer les URLs correspondantes : Saisissez des chaînes (une par ligne) pour exclure du crawl les URLs contenant ces motifs. Exemple :

/admin/
/login
.pdf

Exemple : Crawler flowhunt.io en ignorant /blog

Cet exemple explique ce qu’il se passe lorsque vous utilisez la fonction de planification de FlowHunt pour crawler le domaine flowhunt.io tout en indiquant /blog comme motif d’URL à ignorer dans les paramètres de filtrage.

Paramètres de configuration

Type : Crawl de domaine
URL : flowhunt.io
Fréquence : Hebdomadaire
Filtrage d’URL (ignorer les URLs correspondantes) : /blog
Autres paramètres : Par défaut (pas de rendu navigateur, pas de suivi des liens, pas de captures d’écran, pas de rotation de proxy)

Déroulement

Début du crawl :
- FlowHunt lance un crawl de domaine sur flowhunt.io, ciblant toutes les pages accessibles du domaine (ex : flowhunt.io, flowhunt.io/features, flowhunt.io/pricing, etc.).
Application du filtrage d’URL :
- Le crawler vérifie chaque URL découverte par rapport au motif à ignorer /blog.
- Toute URL contenant /blog (ex : flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) est exclue du crawl.
- Les autres URLs comme flowhunt.io/about, flowhunt.io/contact ou flowhunt.io/docs sont crawlées car elles ne correspondent pas au motif /blog.
Exécution du crawl :
- Le crawler traite de façon systématique les autres URLs de flowhunt.io, indexant leur contenu dans la base de connaissances de votre Agent IA.
- Comme le rendu navigateur, le suivi des liens, les captures d’écran et la rotation de proxy sont désactivés, le crawl est léger et se concentre sur le contenu statique des URLs non exclues.
Résultat :
- La base de connaissances de votre Agent IA est mise à jour avec du contenu frais provenant de flowhunt.io, en excluant tout ce qui se trouve sous le chemin /blog.
- Le crawl s’exécute chaque semaine, ce qui garantit une base de connaissances à jour avec les nouvelles pages ou mises à jour (hors /blog) sans intervention manuelle.

Indexer uniquement les URLs correspondantes : Saisissez des chaînes (une par ligne) pour ne crawler que les URLs contenant ces motifs. Exemple :

/blog/
/articles/
/knowledge/

Exemple d’inclusion de motifs d’URL

Paramètres de configuration

Type : Crawl de domaine
URL : flowhunt.io
Fréquence : Hebdomadaire
Filtrage d’URL (indexer uniquement les URLs correspondantes) :
```
/blog/
/articles/
/knowledge/
```
Autres paramètres : Par défaut (pas de rendu navigateur, pas de suivi des liens, pas de captures d’écran, pas de rotation de proxy)

Début du crawl :
- FlowHunt lance un crawl de domaine sur flowhunt.io, ciblant toutes les pages accessibles du domaine (ex : flowhunt.io, flowhunt.io/blog, flowhunt.io/articles, etc.).
Application du filtrage d’URL :
- Le crawler vérifie chaque URL découverte selon les motifs /blog/, /articles/ et /knowledge/.
- Seules les URLs contenant ces motifs (ex : flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) sont incluses dans le crawl.
- Les autres URLs, comme flowhunt.io/about, flowhunt.io/pricing ou flowhunt.io/contact, sont exclues car elles ne correspondent pas aux motifs définis.
Exécution du crawl :
- Le crawler ne traite que les URLs correspondant à /blog/, /articles/ ou /knowledge/, indexant leur contenu dans la base de connaissances de votre Agent IA.
- Comme le rendu navigateur, le suivi des liens, les captures d’écran et la rotation de proxy sont désactivés, le crawl est léger et se concentre sur le contenu statique des URLs incluses.
Résultat :
- La base de connaissances de votre Agent IA est mise à jour avec du contenu frais issu des pages de flowhunt.io situées sous /blog/, /articles/ et /knowledge/.
- Le crawl s’exécute chaque semaine, assurant l’actualisation de la base de connaissances avec les nouveautés ou mises à jour dans ces sections sans intervention manuelle.

En-têtes personnalisés : Ajoutez des en-têtes HTTP personnalisés pour les requêtes de crawl. Format : HEADER=Valeur (un par ligne) : Cette fonctionnalité est très utile pour adapter les crawls aux exigences spécifiques d’un site web. En activant les en-têtes personnalisés, les utilisateurs peuvent authentifier les requêtes pour accéder à du contenu restreint, imiter le comportement d’un navigateur particulier ou se conformer à une API ou politique d’accès du site. Par exemple, définir l’en-tête Authorization peut donner accès à des pages protégées, tandis qu’un User-Agent personnalisé peut aider à éviter la détection de bots ou garantir la compatibilité avec des sites restreignant certains crawlers. Cette flexibilité permet une collecte de données plus précise et exhaustive, facilitant l’indexation de contenu pertinent pour la base de connaissances d’un Agent IA tout en respectant les protocoles de sécurité ou d’accès du site.

MYHEADER=Any value
Authorization=Bearer token123
User-Agent=Custom crawler

Comment créer un planning

Allez dans Plannings sur votre tableau de bord FlowHunt
Cliquez sur “Ajouter un nouveau planning”
Configurez les paramètres de base :
- Sélectionnez le type de crawl (Domaine/Sitemap/URL/YouTube)
- Définissez la fréquence (Quotidienne/Hebdomadaire/Mensuelle/Annuelle)
- Saisissez l’URL cible
Déployez les options avancées si besoin :
- Activez le rendu navigateur pour les sites riches en JS
- Configurez le suivi des liens pour un crawl complet
- Définissez les règles de filtrage d’URL
  - Ajoutez des en-têtes personnalisés si nécessaire
Cliquez sur “Ajouter un nouveau planning” pour activer

Bonnes pratiques

Pour la plupart des sites web :

Commencez par un crawl de sitemap ou de domaine basique
Utilisez les paramètres par défaut au départ
Ajoutez les options avancées uniquement si besoin

Pour les sites riches en JavaScript :

Activez l’option “Avec navigateur”
Pensez à prendre des captures d’écran pour le contenu visuel
La rotation de proxy peut s’avérer nécessaire en cas de blocage

Pour les sites volumineux :

Utilisez le filtrage d’URL pour cibler le contenu pertinent
Choisissez une fréquence adaptée pour équilibrer fraîcheur et consommation de crédits
Surveillez la consommation de crédits avec les fonctionnalités avancées

Pour l’e-commerce ou le contenu dynamique :

Utilisez une fréquence quotidienne ou hebdomadaire
Activez le suivi des liens pour les pages produits
Pensez aux en-têtes personnalisés pour le contenu authentifié

Consommation de crédits

Les fonctionnalités avancées consomment des crédits supplémentaires :

Le rendu navigateur augmente le temps de traitement et le coût
Le suivi des liens multiplie le nombre de pages crawlées
Les captures d’écran ajoutent une charge de traitement visuel
La rotation de proxy augmente la charge réseau

Surveillez votre consommation de crédits et ajustez les plannings selon vos besoins et votre budget.

Résolution des problèmes courants

Échecs de crawl :

Activez “Avec navigateur” pour les sites dépendants de JavaScript
Ajoutez “Avec rotation de proxy” si vous êtes bloqué par un WAF
Vérifiez les en-têtes personnalisés pour l’authentification

Trop/pas assez de pages :

Utilisez “Ignorer les URLs correspondantes” pour exclure le contenu indésirable
Utilisez “Indexer uniquement les URLs correspondantes” pour cibler des sections spécifiques
Ajustez les paramètres de suivi des liens

Contenu manquant :

Activez “Suivre les liens” si le sitemap est incomplet
Vérifiez que les règles de filtrage d’URL ne sont pas trop restrictives
Vérifiez que l’URL cible est accessible

Planification des crawls automatisés de sites web

Comment fonctionne la planification

Options de configuration du planning

Paramètres de base

Options de crawling avancées

Filtrage d’URL

Exemple : Crawler flowhunt.io en ignorant /blog

Exemple d’inclusion de motifs d’URL

Comment créer un planning

Bonnes pratiques

Consommation de crédits

Résolution des problèmes courants

En savoir plus

Générateur de plan de contenu SEO

Comment générer des pages de glossaire optimisées SEO avec l’IA dans FlowHunt

Générateur de Plan de Blog IA

Planification des crawls automatisés de sites web

Comment fonctionne la planification

Options de configuration du planning

Paramètres de base

Options de crawling avancées

Filtrage d’URL

Exemple : Crawler flowhunt.io en ignorant /blog

Exemple d’inclusion de motifs d’URL

Comment créer un planning

Bonnes pratiques

Consommation de crédits

Résolution des problèmes courants

En savoir plus

Générateur de plan de contenu SEO

Comment générer des pages de glossaire optimisées SEO avec l’IA dans FlowHunt

Générateur de Plan de Blog IA

Paramètres des Cookies

Cookies Nécessaires

Cookies d'Analyse