Recuperador de URL
El Recuperador de URL te permite obtener y procesar contenido de enlaces web, soportando OCR, extracción de metadatos y salida flexible para potenciar flujos de trabajo de IA.

Descripción del componente
Cómo funciona el componente Recuperador de URL
Componente Recuperador de URL
El Recuperador de URL es un componente de flujo versátil diseñado para obtener y procesar contenido web de URLs especificadas, devolviendo la información como documentos estructurados. Sirve de puente entre contenido en línea externo y tu flujo de trabajo de IA, permitiéndote integrar, analizar o procesar información basada en la web de manera eficiente.
¿Qué Hace?
Este componente recupera el contenido de una o varias URLs proporcionadas como entrada. Puede extraer el texto principal, metadatos e incluso procesar contenido de imágenes utilizando Reconocimiento Óptico de Caracteres (OCR). Los datos recuperados se ponen luego a disposición en varios formatos estructurados adecuados para tareas de IA posteriores como resumen, respuesta a preguntas o extracción de conocimiento.
Opciones de Entrada
Puedes suministrar URLs al componente de dos maneras:
URLs de Texto:
- Tipo de entrada:
Mensaje
- Descripción: Una lista de enlaces URL simples para que el componente obtenga su contenido.
- Tipo de entrada:
Registros de URL:
- Tipo de entrada:
UrlRecord
- Descripción: Una lista de registros de URL estructurados, que pueden incluir metadatos adicionales.
- Tipo de entrada:
Parámetros Avanzados de Entrada
Parámetro | Tipo | Predeterminado | Descripción |
---|---|---|---|
Aplicar OCR | Booleano | false | Si está habilitado, aplica OCR para extraer texto de imágenes en el documento. |
Tiempo de Caché | Desplegable | 2 semanas | Cuánto tiempo debe almacenarse el contenido en caché, con opciones desde sin caché hasta 1 año. |
Desde H1 si existe | Booleano | true | Comienza la extracción desde la etiqueta H1 si está presente, enfocándose en el contenido principal. |
Cargar desde puntero | Booleano | true | Carga el contenido comenzando desde la sección más relevante según tu consulta. |
Ocultar recursos | Booleano | false | Oculta los recursos recuperados para que no se muestren o exporten. |
Máx. de tokens | Entero | 3000 | Establece el número máximo de tokens para el texto de salida. |
Saltar último header | Booleano | true | Omite el último encabezado durante la extracción para un contenido más conciso. |
Estrategia | Desplegable | Incluir igual tamaño de cada documento | Determina cómo se combina el contenido: concatenar completamente o incluir partes iguales de cada documento. |
Exportar contenido | Multiselección | Todos | Elige qué elementos HTML exportar (H1-H6, Párrafo). |
Incluir metadatos | Multiselección | Producto | Especifica qué campos de metadatos incluir (por ejemplo, Producto, Autor, Sitio Web, etc.). |
Detallado (Verbose) | Booleano | false | Habilita una salida detallada para depuración o información. |
Nombre de Herramienta | Cadena | (vacío) | Opcionalmente asigna un nombre personalizado a la herramienta para referencia del agente. |
Descripción de Herramienta | Multilínea | (vacío) | Proporciona una descripción para ayudar a los agentes a entender el propósito de la herramienta. |
Salidas
El Recuperador de URL proporciona sus salidas en varios formatos, permitiendo una integración flexible con diversos procesos de IA:
Nombre de Salida | Tipo | Descripción |
---|---|---|
Documentos | Mensaje | El contenido procesado de las URLs, listo para su uso en flujos de trabajo orientados a mensajes. |
Documentos sin procesar | Documento | Los objetos de documentos sin procesar para procesamiento posterior avanzado. |
Documentos como herramienta | Herramienta | El contenido empaquetado como una herramienta, permitiendo que flujos de agentes utilicen los documentos. |
¿Por Qué Usar el Recuperador de URL?
- Integra conocimiento externo: Incorpora información web en tus aplicaciones de IA, como chatbots, motores de búsqueda o bases de conocimiento.
- Extracción personalizable: Ajusta qué contenido y metadatos deseas, controla la cantidad de datos y usa OCR para imágenes.
- Rendimiento y eficiencia: Utiliza caché para evitar descargas redundantes y limita la salida de tokens para optimizar el rendimiento.
- Formatos de salida flexibles: Elige el formato de salida que mejor se adapte al siguiente paso de tu flujo de trabajo—documento estructurado, mensaje o herramienta.
Ejemplos de Uso
- Construir agentes conversacionales fundamentados en conocimiento que respondan preguntas utilizando contenido web actualizado.
- Agregar datos de productos de sitios de comercio electrónico para comparación o análisis.
- Monitorear y analizar artículos de blogs o noticias según temas o palabras clave específicas.
- Extraer información de páginas web que contienen contenido mixto (texto e imágenes).
Tabla Resumen
Función | Descripción |
---|---|
Recupera URLs | Obtiene y procesa contenido web de las URLs proporcionadas. |
Soporte OCR | Extrae texto de imágenes en documentos si está habilitado. |
Extracción de metadatos | Incluye opcionalmente metadatos como autor, producto o tipos schema.org. |
Salida personalizable | Selecciona qué elementos HTML o metadatos exportar. |
Caché | Duraciones de caché configurables para mayor eficiencia. |
Múltiples tipos de salida | Soporta mensaje, documento sin procesar y salidas como herramienta para flexibilidad en el flujo. |
El Recuperador de URL es un puente potente y flexible entre el contenido web y tus flujos de trabajo de IA, ofreciendo control granular sobre la extracción e integración de contenido.
Ejemplos de plantillas de flujo utilizando el componente Recuperador de URL
Para ayudarle a comenzar rápidamente, hemos preparado varios ejemplos de plantillas de flujo que demuestran cómo utilizar el componente Recuperador de URL de manera efectiva. Estas plantillas muestran diferentes casos de uso y mejores prácticas, facilitando la comprensión e implementación del componente en sus propios proyectos.
Preguntas frecuentes
- ¿Qué hace el componente Recuperador de URL?
El Recuperador de URL obtiene y procesa contenido de enlaces web especificados, haciendo que el texto y los metadatos de documentos en línea estén disponibles para tu flujo de trabajo o agente de IA.
- ¿Puede extraer contenido de imágenes o PDFs?
Sí, al habilitar la opción de OCR, el componente puede extraer texto de documentos basados en imágenes o PDFs escaneados.
- ¿Qué tipos de salidas proporciona?
Proporciona documentos procesados como mensajes de texto, objetos de documentos en bruto o como una herramienta para flujos de trabajo de agentes, según tu configuración.
- ¿Cómo funciona la caché en Recuperador de URL?
Puedes establecer cuánto tiempo se almacena en caché el contenido recuperado, reduciendo descargas repetidas y acelerando tus flujos.
- ¿Puedo controlar qué partes de una página web se extraen?
Sí, puedes especificar qué encabezados, párrafos o campos de metadatos incluir en la salida, permitiendo una extracción enfocada.
- ¿Es adecuado para construir bots de conocimiento o automatizaciones de datos web?
Absolutamente. El Recuperador de URL es esencial para cualquier automatización o chatbot que necesite leer, procesar o resumir contenido web en tiempo real.
Prueba FlowHunt Recuperador de URL
Impulsa tus flujos de trabajo integrando contenido web en tiempo real. Extrae, procesa y utiliza datos de URLs fácilmente.