Récupérateur d'URL
Le Récupérateur d’URL vous permet de récupérer et de traiter du contenu à partir de liens web, en prenant en charge l’OCR, l’extraction de métadonnées et une sortie flexible pour alimenter vos flux de travail IA.

Description du composant
Comment fonctionne le composant Récupérateur d'URL
Composant Récupérateur d’URL
Le Récupérateur d’URL est un composant de flux polyvalent conçu pour récupérer et traiter le contenu web à partir d’URL spécifiées, en renvoyant l’information sous forme de documents structurés. Il sert de pont entre le contenu en ligne externe et votre flux de travail IA, vous permettant d’intégrer, d’analyser ou de traiter efficacement l’information issue du web.
À quoi sert-il ?
Ce composant récupère le contenu d’une ou plusieurs URL fournies en entrée. Il peut extraire le texte principal, les métadonnées, et même traiter le contenu des images grâce à la Reconnaissance Optique de Caractères (OCR). Les données récupérées sont ensuite mises à disposition dans différents formats structurés adaptés à des tâches IA en aval telles que la synthèse, la réponse à des questions ou l’extraction de connaissances.
Options d’entrée
Vous pouvez fournir des URL au composant de deux façons :
URL en texte :
- Type d’entrée :
Message
- Description : Une liste de liens URL simples à partir desquels le composant doit récupérer le contenu.
- Type d’entrée :
Enregistrements d’URL :
- Type d’entrée :
UrlRecord
- Description : Une liste d’enregistrements d’URL structurés, pouvant inclure des métadonnées supplémentaires.
- Type d’entrée :
Paramètres d’entrée avancés
Paramètre | Type | Par défaut | Description |
---|---|---|---|
Appliquer l’OCR | Booléen | false | Si activé, applique l’OCR pour extraire le texte des images dans le document. |
Durée de cache | Liste déroulante | 2 semaines | Durée de mise en cache du contenu, avec des options allant de pas de cache à 1 an. |
À partir du H1 si présent | Booléen | true | Commence l’extraction à partir de la balise H1 si présente, en se concentrant sur le contenu principal. |
Charger depuis le pointeur | Booléen | true | Charge le contenu à partir de la section la plus pertinente selon votre requête. |
Masquer les ressources | Booléen | false | Masque les ressources récupérées pour qu’elles ne soient pas affichées ou sorties. |
Nombre maximal de tokens | Entier | 3000 | Définit le nombre maximal de tokens pour le texte de sortie. |
Ignorer le dernier titre | Booléen | true | Ignore le dernier titre lors de l’extraction pour un contenu plus fluide. |
Stratégie | Liste déroulante | Inclure une taille égale de chaque document | Détermine comment le contenu est combiné : concaténer complètement ou inclure des parties égales de chaque document. |
Exporter le contenu | Multi-sélection | Tout | Choisissez quels éléments HTML exporter (H1-H6, Paragraphe). |
Inclure les métadonnées | Multi-sélection | Produit | Spécifiez quels champs de métadonnées inclure (ex. Produit, Auteur, Site web, etc.). |
Verbeux | Booléen | false | Active une sortie détaillée pour le débogage ou à titre d’information. |
Nom de l’outil | Chaîne | (vide) | Attribuez éventuellement un nom personnalisé à l’outil pour référence par les agents. |
Description de l’outil | Multiligne | (vide) | Fournissez une description pour aider les agents à comprendre l’objectif de l’outil. |
Sorties
Le Récupérateur d’URL fournit ses sorties sous plusieurs formats, permettant une intégration flexible avec divers processus IA :
Nom de la sortie | Type | Description |
---|---|---|
Documents | Message | Le contenu traité des URL, prêt à être utilisé dans des flux de travail orientés messagerie. |
Documents bruts | Document | Les objets document bruts, non traités, pour un traitement avancé en aval. |
Documents en tant qu’outil | Outil | Le contenu emballé comme un outil, permettant aux flux d’agent d’utiliser les documents. |
Pourquoi utiliser le Récupérateur d’URL ?
- Intégrez des connaissances externes : Intégrez facilement des informations web dans vos applications IA, comme des chatbots, moteurs de recherche ou bases de connaissances.
- Extraction personnalisable : Affinez le contenu et les métadonnées que vous souhaitez, contrôlez la quantité de données et utilisez l’OCR pour les images.
- Performance & efficacité : Utilisez la mise en cache pour éviter les téléchargements redondants et limitez la sortie en tokens pour la performance.
- Formats de sortie flexibles : Choisissez le format de sortie qui correspond le mieux à l’étape suivante de votre flux de travail : document structuré, message ou outil.
Exemples d’utilisation
- Création d’agents conversationnels fondés sur la connaissance qui répondent aux questions à l’aide de contenu web à jour.
- Agrégation de données produits depuis des sites e-commerce pour la comparaison ou l’analyse.
- Surveillance et analyse d’articles de blogs ou de presse sur des sujets ou mots-clés spécifiques.
- Extraction d’informations à partir de pages web contenant des médias mixtes (texte et images).
Tableau récapitulatif
Fonctionnalité | Description |
---|---|
Récupère les URL | Récupère et traite le contenu web à partir des URL fournies. |
Prise en charge de l’OCR | Extrait le texte des images dans les documents si activé. |
Extraction de métadonnées | Inclut en option des métadonnées telles qu’auteur, produit ou types schema.org. |
Sortie personnalisable | Sélectionnez les éléments HTML ou métadonnées à exporter. |
Mise en cache | Durées de cache configurables pour plus d’efficacité. |
Types de sortie multiples | Prend en charge les messages, documents bruts et sorties outils pour une flexibilité des flux. |
Le Récupérateur d’URL est un pont puissant et flexible entre le contenu web et vos flux de travail IA, offrant un contrôle fin sur l’extraction et l’intégration des contenus.
Exemples de modèles de flux utilisant le composant Récupérateur d'URL
Pour vous aider à démarrer rapidement, nous avons préparé plusieurs exemples de modèles de flux qui démontrent comment utiliser efficacement le composant Récupérateur d'URL. Ces modèles présentent différents cas d'utilisation et meilleures pratiques, facilitant votre compréhension et l'implémentation du composant dans vos propres projets.
Questions fréquemment posées
- Que fait le composant Récupérateur d'URL ?
Le Récupérateur d'URL récupère et traite le contenu de liens web spécifiés, rendant le texte et les métadonnées de documents en ligne disponibles pour votre flux de travail ou agent IA.
- Peut-il extraire du contenu à partir d'images ou de PDF ?
Oui, en activant l'option OCR, le composant peut extraire le texte de documents basés sur des images ou des PDF scannés.
- Quels types de sorties propose-t-il ?
Il fournit les documents traités sous forme de messages texte, d'objets document bruts ou comme outil pour des flux de travail d'agent, selon votre configuration.
- Comment fonctionne la mise en cache dans le Récupérateur d'URL ?
Vous pouvez définir la durée de mise en cache du contenu récupéré, réduisant ainsi les téléchargements répétés et accélérant vos flux.
- Puis-je contrôler quelles parties d'une page web sont extraites ?
Oui, vous pouvez spécifier quels titres, paragraphes ou champs de métadonnées inclure dans la sortie, permettant une extraction ciblée.
- Est-ce adapté à la création de bots de connaissance ou d'automatisations de données web ?
Absolument. Le Récupérateur d'URL est essentiel pour toute automatisation ou chatbot ayant besoin de lire, traiter ou résumer du contenu web en direct.
Essayez le Récupérateur d'URL FlowHunt
Boostez vos flux de travail en intégrant du contenu web en direct. Extrayez, traitez et exploitez des données depuis des URL en toute simplicité.