Récupérateur d'URL

Récupérateur d'URL

Le Récupérateur d’URL vous permet de récupérer et de traiter du contenu à partir de liens web, en prenant en charge l’OCR, l’extraction de métadonnées et une sortie flexible pour alimenter vos flux de travail IA.

Description du composant

Comment fonctionne le composant Récupérateur d'URL

The URL Retriever is a versatile flow component designed to fetch and process web content from specified URLs, returning the information as structured documents. It serves as a bridge between external online content and your AI workflow, enabling you to integrate, analyze, or process web-based information efficiently.

What Does It Do?

This component retrieves the content of one or multiple URLs provided as input. It can extract the main text, metadata, and even process content from images using Optical Character Recognition (OCR). The retrieved data is then made available in various structured formats suitable for downstream AI tasks such as summarization, question answering, or knowledge extraction.

Input Options

You can supply URLs to the component in two ways:

  • Text URLs:

    • Input Type: Message
    • Description: A list of plain URL links for the component to fetch content from.
  • URL Records:

    • Input Type: UrlRecord
    • Description: A list of structured URL records, which may include additional metadata.

Advanced Input Parameters

ParameterTypeDefaultDescription
Apply OCRBooleanfalseIf enabled, applies OCR to extract text from images in the document.
Cache TTLDropdown2 weeksHow long the content should be cached, with options from no cache up to 1 year.
From H1 if existsBooleantrueBegins extraction from the H1 tag if present, focusing on main content.
Load from pointerBooleantrueLoads content starting from the most relevant section based on your query.
Hide ResourcesBooleanfalseHides the retrieved resources from being output or displayed.
Max TokensInteger3000Sets the maximum number of tokens for the output text.
Skip Last HeaderBooleantrueSkips the last header during extraction for streamlined content.
StrategyDropdownInclude equal size from each documentsDetermines how content is combined: concatenate fully or include equal parts from each document.
Export ContentMulti-selectAllChoose which HTML elements to export (H1-H6, Paragraph).
Include MetadataMulti-selectProductSpecify which metadata fields to include (e.g., Product, Author, Website, etc.).
VerboseBooleanfalseEnables detailed output for debugging or information purposes.
Tool NameString(empty)Optionally assign a custom name to the tool for agent reference.
Tool DescriptionMultiline(empty)Provide a description to help agents understand the tool’s purpose.

Outputs

The URL Retriever provides its outputs in several formats, allowing flexible integration with various AI processes:

Output NameTypeDescription
DocumentsMessageThe processed content from the URLs, ready for use in messaging-oriented workflows.
Raw DocumentsDocumentThe raw, unprocessed document objects for advanced downstream processing.
Documents As ToolToolThe content packaged as a tool, enabling agent-based workflows to utilize the documents.

Why Use the URL Retriever?

  • Integrate External Knowledge: Seamlessly bring web-based information into your AI applications, such as chatbots, search engines, or knowledge bases.
  • Customizable Extraction: Fine-tune what content and metadata you want, control the amount of data, and use OCR for images.
  • Performance & Efficiency: Use caching to avoid redundant downloads, and limit token output for performance.
  • Flexible Output Formats: Choose the output format that best fits your next workflow step—structured document, message, or tool.

Example Use Cases

  • Building knowledge-grounded conversational agents that answer questions using up-to-date web content.
  • Aggregating product data from e-commerce sites for comparison or analytics.
  • Monitoring and analyzing blog or news articles based on specific topics or keywords.
  • Extracting information from web pages containing mixed media (text and images).

Summary Table

FeatureDescription
Fetches URLsRetrieves and processes web content from provided URLs.
OCR SupportExtracts text from images in documents if enabled.
Metadata ExtractionOptionally includes metadata such as author, product, or schema.org types.
Customizable OutputSelect which HTML elements or metadata to export.
CachingConfigurable cache lifetimes for efficiency.
Multiple Output TypesSupports message, raw document, and tool outputs for workflow flexibility.

The URL Retriever is a powerful and flexible bridge between web content and your AI workflows, offering granular control over content extraction and integration.

Exemples de modèles de flux utilisant le composant Récupérateur d'URL

Pour vous aider à démarrer rapidement, nous avons préparé plusieurs exemples de modèles de flux qui démontrent comment utiliser efficacement le composant Récupérateur d'URL. Ces modèles présentent différents cas d'utilisation et meilleures pratiques, facilitant votre compréhension et l'implémentation du composant dans vos propres projets.

Optimiseur de titres d'articles SEO
Optimiseur de titres d'articles SEO

Optimiseur de titres d'articles SEO

Optimisez automatiquement les titres et en-têtes de vos articles pour un mot-clé ou un cluster de mots-clés spécifique afin d'améliorer la performance SEO. Ce w...

4 min de lecture
Optimiseur de titres de blog et de mots-clés par IA
Optimiseur de titres de blog et de mots-clés par IA

Optimiseur de titres de blog et de mots-clés par IA

Ce flux de travail alimenté par l'IA identifie les meilleurs mots-clés SEO pour votre article de blog et réécrit automatiquement les titres afin de cibler ces m...

4 min de lecture
Personnaliseur de CV IA pour les candidatures
Personnaliseur de CV IA pour les candidatures

Personnaliseur de CV IA pour les candidatures

Ce flux de travail propulsé par l'IA simplifie le processus d'adaptation du CV d'un utilisateur à une offre d'emploi spécifique. En analysant à la fois le CV or...

4 min de lecture
Planificateur de réunions IA avec Google Agenda
Planificateur de réunions IA avec Google Agenda

Planificateur de réunions IA avec Google Agenda

Ce flux de travail alimenté par l'IA automatise la planification des réunions via Google Agenda. Les utilisateurs interagissent avec un chatbot qui trouve des c...

4 min de lecture
Résumer n'importe quelle URL en méta description
Résumer n'importe quelle URL en méta description

Résumer n'importe quelle URL en méta description

Crée automatiquement une méta description engageante et optimisée pour le SEO pour toute page web, PDF, vidéo YouTube ou lien de document en analysant son conte...

3 min de lecture
Résumez n'importe quelle URL instantanément
Résumez n'importe quelle URL instantanément

Résumez n'importe quelle URL instantanément

Générez rapidement des résumés concis de n'importe quelle page web en fournissant simplement une URL. Ce workflow alimenté par l'IA récupère le contenu du lien ...

3 min de lecture
Support Chatbot IA pour LiveAgent
Support Chatbot IA pour LiveAgent

Support Chatbot IA pour LiveAgent

Automatisez le support client dans LiveAgent avec un chatbot IA qui répond aux questions en utilisant votre base de connaissances interne, récupère les document...

5 min de lecture
Transformez n'importe quelle URL en une publication X engageante
Transformez n'importe quelle URL en une publication X engageante

Transformez n'importe quelle URL en une publication X engageante

Transforme automatiquement le contenu de toute URL fournie en une publication concise et engageante adaptée à X (Twitter), aidant les marketeurs et créateurs à ...

3 min de lecture

Questions fréquemment posées

Que fait le composant Récupérateur d'URL ?

Le Récupérateur d'URL récupère et traite le contenu de liens web spécifiés, rendant le texte et les métadonnées de documents en ligne disponibles pour votre flux de travail ou agent IA.

Peut-il extraire du contenu à partir d'images ou de PDF ?

Oui, en activant l'option OCR, le composant peut extraire le texte de documents basés sur des images ou des PDF scannés.

Quels types de sorties propose-t-il ?

Il fournit les documents traités sous forme de messages texte, d'objets document bruts ou comme outil pour des flux de travail d'agent, selon votre configuration.

Comment fonctionne la mise en cache dans le Récupérateur d'URL ?

Vous pouvez définir la durée de mise en cache du contenu récupéré, réduisant ainsi les téléchargements répétés et accélérant vos flux.

Puis-je contrôler quelles parties d'une page web sont extraites ?

Oui, vous pouvez spécifier quels titres, paragraphes ou champs de métadonnées inclure dans la sortie, permettant une extraction ciblée.

Est-ce adapté à la création de bots de connaissance ou d'automatisations de données web ?

Absolument. Le Récupérateur d'URL est essentiel pour toute automatisation ou chatbot ayant besoin de lire, traiter ou résumer du contenu web en direct.

Essayez le Récupérateur d'URL FlowHunt

Boostez vos flux de travail en intégrant du contenu web en direct. Extrayez, traitez et exploitez des données depuis des URL en toute simplicité.

En savoir plus

Récupérateur Google Docs
Récupérateur Google Docs

Récupérateur Google Docs

Intégrez vos flux de travail avec Google Docs grâce au composant Récupérateur Google Docs—récupérez sans effort le contenu de vos documents pour l'utiliser dans...

3 min de lecture
Google Docs Automation +3
Récupérateur de fichiers
Récupérateur de fichiers

Récupérateur de fichiers

Le composant Récupérateur de fichiers dans FlowHunt vous permet d'intégrer des fichiers dans votre flux de travail et de les convertir en documents pour un trai...

3 min de lecture
Files Automation +3
Outil de capture d'écran
Outil de capture d'écran

Outil de capture d'écran

Capturez instantanément des instantanés de sites web avec le composant Outil de capture d'écran. Automatisez facilement la prise de captures d'écran de n'import...

2 min de lecture
Automation Web +3