Récupérateur d'URL

Le Récupérateur d’URL vous permet de récupérer et de traiter du contenu à partir de liens web, en prenant en charge l’OCR, l’extraction de métadonnées et une sortie flexible pour alimenter vos flux de travail IA.

Récupérateur d'URL

Description du composant

Comment fonctionne le composant Récupérateur d'URL

Composant Récupérateur d’URL

Le Récupérateur d’URL est un composant de flux polyvalent conçu pour récupérer et traiter le contenu web à partir d’URL spécifiées, en renvoyant l’information sous forme de documents structurés. Il sert de pont entre le contenu en ligne externe et votre flux de travail IA, vous permettant d’intégrer, d’analyser ou de traiter efficacement l’information issue du web.

À quoi sert-il ?

Ce composant récupère le contenu d’une ou plusieurs URL fournies en entrée. Il peut extraire le texte principal, les métadonnées, et même traiter le contenu des images grâce à la Reconnaissance Optique de Caractères (OCR). Les données récupérées sont ensuite mises à disposition dans différents formats structurés adaptés à des tâches IA en aval telles que la synthèse, la réponse à des questions ou l’extraction de connaissances.

Options d’entrée

Vous pouvez fournir des URL au composant de deux façons :

  • URL en texte :

    • Type d’entrée : Message
    • Description : Une liste de liens URL simples à partir desquels le composant doit récupérer le contenu.
  • Enregistrements d’URL :

    • Type d’entrée : UrlRecord
    • Description : Une liste d’enregistrements d’URL structurés, pouvant inclure des métadonnées supplémentaires.

Paramètres d’entrée avancés

ParamètreTypePar défautDescription
Appliquer l’OCRBooléenfalseSi activé, applique l’OCR pour extraire le texte des images dans le document.
Durée de cacheListe déroulante2 semainesDurée de mise en cache du contenu, avec des options allant de pas de cache à 1 an.
À partir du H1 si présentBooléentrueCommence l’extraction à partir de la balise H1 si présente, en se concentrant sur le contenu principal.
Charger depuis le pointeurBooléentrueCharge le contenu à partir de la section la plus pertinente selon votre requête.
Masquer les ressourcesBooléenfalseMasque les ressources récupérées pour qu’elles ne soient pas affichées ou sorties.
Nombre maximal de tokensEntier3000Définit le nombre maximal de tokens pour le texte de sortie.
Ignorer le dernier titreBooléentrueIgnore le dernier titre lors de l’extraction pour un contenu plus fluide.
StratégieListe déroulanteInclure une taille égale de chaque documentDétermine comment le contenu est combiné : concaténer complètement ou inclure des parties égales de chaque document.
Exporter le contenuMulti-sélectionToutChoisissez quels éléments HTML exporter (H1-H6, Paragraphe).
Inclure les métadonnéesMulti-sélectionProduitSpécifiez quels champs de métadonnées inclure (ex. Produit, Auteur, Site web, etc.).
VerbeuxBooléenfalseActive une sortie détaillée pour le débogage ou à titre d’information.
Nom de l’outilChaîne(vide)Attribuez éventuellement un nom personnalisé à l’outil pour référence par les agents.
Description de l’outilMultiligne(vide)Fournissez une description pour aider les agents à comprendre l’objectif de l’outil.

Sorties

Le Récupérateur d’URL fournit ses sorties sous plusieurs formats, permettant une intégration flexible avec divers processus IA :

Nom de la sortieTypeDescription
DocumentsMessageLe contenu traité des URL, prêt à être utilisé dans des flux de travail orientés messagerie.
Documents brutsDocumentLes objets document bruts, non traités, pour un traitement avancé en aval.
Documents en tant qu’outilOutilLe contenu emballé comme un outil, permettant aux flux d’agent d’utiliser les documents.

Pourquoi utiliser le Récupérateur d’URL ?

  • Intégrez des connaissances externes : Intégrez facilement des informations web dans vos applications IA, comme des chatbots, moteurs de recherche ou bases de connaissances.
  • Extraction personnalisable : Affinez le contenu et les métadonnées que vous souhaitez, contrôlez la quantité de données et utilisez l’OCR pour les images.
  • Performance & efficacité : Utilisez la mise en cache pour éviter les téléchargements redondants et limitez la sortie en tokens pour la performance.
  • Formats de sortie flexibles : Choisissez le format de sortie qui correspond le mieux à l’étape suivante de votre flux de travail : document structuré, message ou outil.

Exemples d’utilisation

  • Création d’agents conversationnels fondés sur la connaissance qui répondent aux questions à l’aide de contenu web à jour.
  • Agrégation de données produits depuis des sites e-commerce pour la comparaison ou l’analyse.
  • Surveillance et analyse d’articles de blogs ou de presse sur des sujets ou mots-clés spécifiques.
  • Extraction d’informations à partir de pages web contenant des médias mixtes (texte et images).

Tableau récapitulatif

FonctionnalitéDescription
Récupère les URLRécupère et traite le contenu web à partir des URL fournies.
Prise en charge de l’OCRExtrait le texte des images dans les documents si activé.
Extraction de métadonnéesInclut en option des métadonnées telles qu’auteur, produit ou types schema.org.
Sortie personnalisableSélectionnez les éléments HTML ou métadonnées à exporter.
Mise en cacheDurées de cache configurables pour plus d’efficacité.
Types de sortie multiplesPrend en charge les messages, documents bruts et sorties outils pour une flexibilité des flux.

Le Récupérateur d’URL est un pont puissant et flexible entre le contenu web et vos flux de travail IA, offrant un contrôle fin sur l’extraction et l’intégration des contenus.

Exemples de modèles de flux utilisant le composant Récupérateur d'URL

Pour vous aider à démarrer rapidement, nous avons préparé plusieurs exemples de modèles de flux qui démontrent comment utiliser efficacement le composant Récupérateur d'URL. Ces modèles présentent différents cas d'utilisation et meilleures pratiques, facilitant votre compréhension et l'implémentation du composant dans vos propres projets.

Questions fréquemment posées

Que fait le composant Récupérateur d'URL ?

Le Récupérateur d'URL récupère et traite le contenu de liens web spécifiés, rendant le texte et les métadonnées de documents en ligne disponibles pour votre flux de travail ou agent IA.

Peut-il extraire du contenu à partir d'images ou de PDF ?

Oui, en activant l'option OCR, le composant peut extraire le texte de documents basés sur des images ou des PDF scannés.

Quels types de sorties propose-t-il ?

Il fournit les documents traités sous forme de messages texte, d'objets document bruts ou comme outil pour des flux de travail d'agent, selon votre configuration.

Comment fonctionne la mise en cache dans le Récupérateur d'URL ?

Vous pouvez définir la durée de mise en cache du contenu récupéré, réduisant ainsi les téléchargements répétés et accélérant vos flux.

Puis-je contrôler quelles parties d'une page web sont extraites ?

Oui, vous pouvez spécifier quels titres, paragraphes ou champs de métadonnées inclure dans la sortie, permettant une extraction ciblée.

Est-ce adapté à la création de bots de connaissance ou d'automatisations de données web ?

Absolument. Le Récupérateur d'URL est essentiel pour toute automatisation ou chatbot ayant besoin de lire, traiter ou résumer du contenu web en direct.

Essayez le Récupérateur d'URL FlowHunt

Boostez vos flux de travail en intégrant du contenu web en direct. Extrayez, traitez et exploitez des données depuis des URL en toute simplicité.

En savoir plus