Recuperador de URL

El Recuperador de URL te permite obtener y procesar contenido de enlaces web, soportando OCR, extracción de metadatos y salida flexible para potenciar flujos de trabajo de IA.

Recuperador de URL

Descripción del componente

Cómo funciona el componente Recuperador de URL

Componente Recuperador de URL

El Recuperador de URL es un componente de flujo versátil diseñado para obtener y procesar contenido web de URLs especificadas, devolviendo la información como documentos estructurados. Sirve de puente entre contenido en línea externo y tu flujo de trabajo de IA, permitiéndote integrar, analizar o procesar información basada en la web de manera eficiente.

¿Qué Hace?

Este componente recupera el contenido de una o varias URLs proporcionadas como entrada. Puede extraer el texto principal, metadatos e incluso procesar contenido de imágenes utilizando Reconocimiento Óptico de Caracteres (OCR). Los datos recuperados se ponen luego a disposición en varios formatos estructurados adecuados para tareas de IA posteriores como resumen, respuesta a preguntas o extracción de conocimiento.

Opciones de Entrada

Puedes suministrar URLs al componente de dos maneras:

  • URLs de Texto:

    • Tipo de entrada: Mensaje
    • Descripción: Una lista de enlaces URL simples para que el componente obtenga su contenido.
  • Registros de URL:

    • Tipo de entrada: UrlRecord
    • Descripción: Una lista de registros de URL estructurados, que pueden incluir metadatos adicionales.

Parámetros Avanzados de Entrada

ParámetroTipoPredeterminadoDescripción
Aplicar OCRBooleanofalseSi está habilitado, aplica OCR para extraer texto de imágenes en el documento.
Tiempo de CachéDesplegable2 semanasCuánto tiempo debe almacenarse el contenido en caché, con opciones desde sin caché hasta 1 año.
Desde H1 si existeBooleanotrueComienza la extracción desde la etiqueta H1 si está presente, enfocándose en el contenido principal.
Cargar desde punteroBooleanotrueCarga el contenido comenzando desde la sección más relevante según tu consulta.
Ocultar recursosBooleanofalseOculta los recursos recuperados para que no se muestren o exporten.
Máx. de tokensEntero3000Establece el número máximo de tokens para el texto de salida.
Saltar último headerBooleanotrueOmite el último encabezado durante la extracción para un contenido más conciso.
EstrategiaDesplegableIncluir igual tamaño de cada documentoDetermina cómo se combina el contenido: concatenar completamente o incluir partes iguales de cada documento.
Exportar contenidoMultiselecciónTodosElige qué elementos HTML exportar (H1-H6, Párrafo).
Incluir metadatosMultiselecciónProductoEspecifica qué campos de metadatos incluir (por ejemplo, Producto, Autor, Sitio Web, etc.).
Detallado (Verbose)BooleanofalseHabilita una salida detallada para depuración o información.
Nombre de HerramientaCadena(vacío)Opcionalmente asigna un nombre personalizado a la herramienta para referencia del agente.
Descripción de HerramientaMultilínea(vacío)Proporciona una descripción para ayudar a los agentes a entender el propósito de la herramienta.

Salidas

El Recuperador de URL proporciona sus salidas en varios formatos, permitiendo una integración flexible con diversos procesos de IA:

Nombre de SalidaTipoDescripción
DocumentosMensajeEl contenido procesado de las URLs, listo para su uso en flujos de trabajo orientados a mensajes.
Documentos sin procesarDocumentoLos objetos de documentos sin procesar para procesamiento posterior avanzado.
Documentos como herramientaHerramientaEl contenido empaquetado como una herramienta, permitiendo que flujos de agentes utilicen los documentos.

¿Por Qué Usar el Recuperador de URL?

  • Integra conocimiento externo: Incorpora información web en tus aplicaciones de IA, como chatbots, motores de búsqueda o bases de conocimiento.
  • Extracción personalizable: Ajusta qué contenido y metadatos deseas, controla la cantidad de datos y usa OCR para imágenes.
  • Rendimiento y eficiencia: Utiliza caché para evitar descargas redundantes y limita la salida de tokens para optimizar el rendimiento.
  • Formatos de salida flexibles: Elige el formato de salida que mejor se adapte al siguiente paso de tu flujo de trabajo—documento estructurado, mensaje o herramienta.

Ejemplos de Uso

  • Construir agentes conversacionales fundamentados en conocimiento que respondan preguntas utilizando contenido web actualizado.
  • Agregar datos de productos de sitios de comercio electrónico para comparación o análisis.
  • Monitorear y analizar artículos de blogs o noticias según temas o palabras clave específicas.
  • Extraer información de páginas web que contienen contenido mixto (texto e imágenes).

Tabla Resumen

FunciónDescripción
Recupera URLsObtiene y procesa contenido web de las URLs proporcionadas.
Soporte OCRExtrae texto de imágenes en documentos si está habilitado.
Extracción de metadatosIncluye opcionalmente metadatos como autor, producto o tipos schema.org.
Salida personalizableSelecciona qué elementos HTML o metadatos exportar.
CachéDuraciones de caché configurables para mayor eficiencia.
Múltiples tipos de salidaSoporta mensaje, documento sin procesar y salidas como herramienta para flexibilidad en el flujo.

El Recuperador de URL es un puente potente y flexible entre el contenido web y tus flujos de trabajo de IA, ofreciendo control granular sobre la extracción e integración de contenido.

Ejemplos de plantillas de flujo utilizando el componente Recuperador de URL

Para ayudarle a comenzar rápidamente, hemos preparado varios ejemplos de plantillas de flujo que demuestran cómo utilizar el componente Recuperador de URL de manera efectiva. Estas plantillas muestran diferentes casos de uso y mejores prácticas, facilitando la comprensión e implementación del componente en sus propios proyectos.

Preguntas frecuentes

¿Qué hace el componente Recuperador de URL?

El Recuperador de URL obtiene y procesa contenido de enlaces web especificados, haciendo que el texto y los metadatos de documentos en línea estén disponibles para tu flujo de trabajo o agente de IA.

¿Puede extraer contenido de imágenes o PDFs?

Sí, al habilitar la opción de OCR, el componente puede extraer texto de documentos basados en imágenes o PDFs escaneados.

¿Qué tipos de salidas proporciona?

Proporciona documentos procesados como mensajes de texto, objetos de documentos en bruto o como una herramienta para flujos de trabajo de agentes, según tu configuración.

¿Cómo funciona la caché en Recuperador de URL?

Puedes establecer cuánto tiempo se almacena en caché el contenido recuperado, reduciendo descargas repetidas y acelerando tus flujos.

¿Puedo controlar qué partes de una página web se extraen?

Sí, puedes especificar qué encabezados, párrafos o campos de metadatos incluir en la salida, permitiendo una extracción enfocada.

¿Es adecuado para construir bots de conocimiento o automatizaciones de datos web?

Absolutamente. El Recuperador de URL es esencial para cualquier automatización o chatbot que necesite leer, procesar o resumir contenido web en tiempo real.

Prueba FlowHunt Recuperador de URL

Impulsa tus flujos de trabajo integrando contenido web en tiempo real. Extrae, procesa y utiliza datos de URLs fácilmente.

Saber más