Recuperador de URL

Recuperador de URL

O Recuperador de URL permite buscar e processar conteúdo de links da web, com suporte a OCR, extração de metadados e saída flexível para potencializar fluxos de trabalho de IA.

Descrição do componente

Como o componente Recuperador de URL funciona

The URL Retriever is a versatile flow component designed to fetch and process web content from specified URLs, returning the information as structured documents. It serves as a bridge between external online content and your AI workflow, enabling you to integrate, analyze, or process web-based information efficiently.

What Does It Do?

This component retrieves the content of one or multiple URLs provided as input. It can extract the main text, metadata, and even process content from images using Optical Character Recognition (OCR). The retrieved data is then made available in various structured formats suitable for downstream AI tasks such as summarization, question answering, or knowledge extraction.

Input Options

You can supply URLs to the component in two ways:

  • Text URLs:

    • Input Type: Message
    • Description: A list of plain URL links for the component to fetch content from.
  • URL Records:

    • Input Type: UrlRecord
    • Description: A list of structured URL records, which may include additional metadata.

Advanced Input Parameters

ParameterTypeDefaultDescription
Apply OCRBooleanfalseIf enabled, applies OCR to extract text from images in the document.
Cache TTLDropdown2 weeksHow long the content should be cached, with options from no cache up to 1 year.
From H1 if existsBooleantrueBegins extraction from the H1 tag if present, focusing on main content.
Load from pointerBooleantrueLoads content starting from the most relevant section based on your query.
Hide ResourcesBooleanfalseHides the retrieved resources from being output or displayed.
Max TokensInteger3000Sets the maximum number of tokens for the output text.
Skip Last HeaderBooleantrueSkips the last header during extraction for streamlined content.
StrategyDropdownInclude equal size from each documentsDetermines how content is combined: concatenate fully or include equal parts from each document.
Export ContentMulti-selectAllChoose which HTML elements to export (H1-H6, Paragraph).
Include MetadataMulti-selectProductSpecify which metadata fields to include (e.g., Product, Author, Website, etc.).
VerboseBooleanfalseEnables detailed output for debugging or information purposes.
Tool NameString(empty)Optionally assign a custom name to the tool for agent reference.
Tool DescriptionMultiline(empty)Provide a description to help agents understand the tool’s purpose.

Outputs

The URL Retriever provides its outputs in several formats, allowing flexible integration with various AI processes:

Output NameTypeDescription
DocumentsMessageThe processed content from the URLs, ready for use in messaging-oriented workflows.
Raw DocumentsDocumentThe raw, unprocessed document objects for advanced downstream processing.
Documents As ToolToolThe content packaged as a tool, enabling agent-based workflows to utilize the documents.

Why Use the URL Retriever?

  • Integrate External Knowledge: Seamlessly bring web-based information into your AI applications, such as chatbots, search engines, or knowledge bases.
  • Customizable Extraction: Fine-tune what content and metadata you want, control the amount of data, and use OCR for images.
  • Performance & Efficiency: Use caching to avoid redundant downloads, and limit token output for performance.
  • Flexible Output Formats: Choose the output format that best fits your next workflow step—structured document, message, or tool.

Example Use Cases

  • Building knowledge-grounded conversational agents that answer questions using up-to-date web content.
  • Aggregating product data from e-commerce sites for comparison or analytics.
  • Monitoring and analyzing blog or news articles based on specific topics or keywords.
  • Extracting information from web pages containing mixed media (text and images).

Summary Table

FeatureDescription
Fetches URLsRetrieves and processes web content from provided URLs.
OCR SupportExtracts text from images in documents if enabled.
Metadata ExtractionOptionally includes metadata such as author, product, or schema.org types.
Customizable OutputSelect which HTML elements or metadata to export.
CachingConfigurable cache lifetimes for efficiency.
Multiple Output TypesSupports message, raw document, and tool outputs for workflow flexibility.

The URL Retriever is a powerful and flexible bridge between web content and your AI workflows, offering granular control over content extraction and integration.

Exemplos de modelos de fluxo usando o componente Recuperador de URL

Para ajudá-lo a começar rapidamente, preparamos vários modelos de fluxo de exemplo que demonstram como usar o componente Recuperador de URL de forma eficaz. Esses modelos apresentam diferentes casos de uso e melhores práticas, tornando mais fácil para você entender e implementar o componente em seus próprios projetos.

Imagem Destacada do Blog a partir de URL
Imagem Destacada do Blog a partir de URL

Imagem Destacada do Blog a partir de URL

Gera automaticamente uma imagem de destaque envolvente para qualquer postagem de blog ao analisar seu conteúdo. Basta fornecer a URL do blog e o fluxo usa IA pa...

3 min de leitura
Otimização de Títulos de Artigos para SEO
Otimização de Títulos de Artigos para SEO

Otimização de Títulos de Artigos para SEO

Otimize automaticamente os títulos e manchetes do seu artigo para uma palavra-chave ou cluster de palavras-chave específico, melhorando o desempenho em SEO. Est...

4 min de leitura
Otimização de Títulos e Palavras-chave para Blogs com IA
Otimização de Títulos e Palavras-chave para Blogs com IA

Otimização de Títulos e Palavras-chave para Blogs com IA

Esse fluxo de trabalho movido por IA encontra as melhores palavras-chave de SEO para seu artigo de blog e reescreve automaticamente os títulos para direcionar e...

4 min de leitura
Personalizador de CV com IA para Candidaturas de Emprego
Personalizador de CV com IA para Candidaturas de Emprego

Personalizador de CV com IA para Candidaturas de Emprego

Este fluxo de trabalho com IA agiliza o processo de personalização do CV do usuário para corresponder a uma vaga de emprego específica. Ao analisar tanto o CV o...

4 min de leitura
Resuma qualquer URL em uma Meta Descrição
Resuma qualquer URL em uma Meta Descrição

Resuma qualquer URL em uma Meta Descrição

Cria automaticamente uma meta descrição envolvente e amigável para SEO para qualquer página da web, PDF, vídeo do YouTube ou link de documento, analisando seu c...

3 min de leitura
Resuma Qualquer URL Instantaneamente
Resuma Qualquer URL Instantaneamente

Resuma Qualquer URL Instantaneamente

Gere rapidamente resumos concisos de qualquer página da web apenas fornecendo uma URL. Este fluxo de trabalho com IA recupera o conteúdo do link informado e pro...

3 min de leitura
Suporte por Chatbot de IA no LiveAgent
Suporte por Chatbot de IA no LiveAgent

Suporte por Chatbot de IA no LiveAgent

Automatize o suporte ao cliente no LiveAgent com um chatbot de IA que responde perguntas usando sua base de conhecimento interna, recupera documentos relevantes...

4 min de leitura
Transforme Qualquer URL em um Post Engajador para o X
Transforme Qualquer URL em um Post Engajador para o X

Transforme Qualquer URL em um Post Engajador para o X

Transforma automaticamente o conteúdo de qualquer URL fornecida em um post conciso e envolvente, adequado para o X (Twitter), ajudando profissionais de marketin...

3 min de leitura
Anterior Próximo

Perguntas frequentes

O que o componente Recuperador de URL faz?

O Recuperador de URL busca e processa conteúdo de links da web especificados, tornando texto e metadados de documentos online disponíveis para seu fluxo de trabalho ou agente de IA.

Ele pode extrair conteúdo de imagens ou PDFs?

Sim, ao habilitar a opção OCR, o componente pode extrair texto de documentos baseados em imagem ou PDFs digitalizados.

Quais tipos de saída ele fornece?

Ele disponibiliza documentos processados como mensagens de texto, objetos de documento brutos ou como uma ferramenta para fluxos de trabalho de agentes, dependendo da sua configuração.

Como funciona o cache no Recuperador de URL?

Você pode definir por quanto tempo o conteúdo recuperado será armazenado em cache, reduzindo downloads repetidos e acelerando seus fluxos.

Posso controlar quais partes de uma página web são extraídas?

Sim, você pode especificar quais títulos, parágrafos ou campos de metadados incluir na saída, permitindo uma extração direcionada.

Este componente é adequado para criar bots de conhecimento ou automações de dados web?

Com certeza. O Recuperador de URL é essencial para qualquer automação ou chatbot que precise ler, processar ou resumir conteúdo da web em tempo real.

Experimente o Recuperador de URL do FlowHunt

Impulsione seus fluxos de trabalho integrando conteúdo da web em tempo real. Extraia, processe e utilize dados de URLs com facilidade.

Saiba mais

Google Docs Retriever
Google Docs Retriever

Google Docs Retriever

Integre seus fluxos de trabalho com o Google Docs usando o componente Google Docs Retriever—busque o conteúdo de documentos de forma transparente para usar em a...

3 min de leitura
Google Docs Automation +3
Recuperador de Arquivos
Recuperador de Arquivos

Recuperador de Arquivos

O componente Recuperador de Arquivos no FlowHunt permite que você traga arquivos para seu fluxo de trabalho e os converta em documentos para processamento poste...

3 min de leitura
Files Automation +3
Resumidor de IA a partir de URL
Resumidor de IA a partir de URL

Resumidor de IA a partir de URL

Pesquise e estude melhor resumindo o conteúdo de URLs com IA. Basta inserir a URL e obter insights essenciais imediatamente.

2 min de leitura
AI Summarization +3