Documento a Texto

Transforma datos estructurados en texto markdown legible con el componente Documento a Texto de FlowHunt, que ofrece controles personalizables para una salida eficiente y relevante potenciada por IA.

Documento a Texto

Descripción del componente

Cómo funciona el componente Documento a Texto

La IA puede analizar grandes cantidades de datos en segundos, pero solo algunos de esos datos serán relevantes o adecuados para la salida. El componente Documento a Texto te da control sobre cómo se procesan y transforman en texto los datos de los recuperadores.

Componente Documento a Texto

El componente Documento a Texto está diseñado para transformar documentos de conocimiento en formato de texto plano. Esto es especialmente útil en flujos de trabajo de IA y procesamiento de datos donde se requiere información textual para procesamiento posterior, análisis o como entrada para modelos de lenguaje.

Qué hace el componente

Este componente toma uno o más documentos estructurados (como HTML, Markdown, PDF u otros formatos compatibles) y extrae su contenido textual. Te permite especificar exactamente qué partes de los documentos exportar, si incluir metadatos y cómo manejar secciones o encabezados del documento. La salida es un objeto de mensaje unificado que contiene el texto extraído, listo para tareas posteriores como resumen, clasificación o respuesta a preguntas.

Entradas

El componente acepta varias entradas configurables:

Nombre de EntradaTipoRequeridoDescripciónValor por Defecto
DocumentosLista[Documento]Los documentos de conocimiento a transformar en texto.N/A (proporcionado por el usuario)
Desde H1 si existeBooleanoIniciar la extracción desde el primer encabezado H1 si está presente.true
Cargar desde punteroBooleanoIniciar la extracción desde el puntero que mejor coincida con la consulta de entrada, o cargar todos si no coincide.true
Máximo de TokensEnteroNoNúmero máximo de tokens en el texto de salida.3000
Omitir último encabezadoBooleanoOmitir el último encabezado (a menudo es un pie de página) para optimizar la salida.false
EstrategiaCadenaEstrategia de extracción de texto: concatenar documentos o incluir tamaño igual de cada uno.“Incluir tamaño igual de cada documento”
Exportar contenidoMulti-selecciónNoQué tipos de contenido incluir (por ejemplo, H1, H2, Párrafo).Todos los tipos seleccionados
Incluir metadatosMulti-selecciónNoCampos de metadatos a incluir en la salida si están disponibles.Producto

Tipos de contenido disponibles: H1, H2, H3, H4, H5, H6, Párrafo
Opciones de metadatos: Autor, Producto, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Salidas

El componente produce la siguiente salida:

  • Mensaje: Un objeto de mensaje que contiene el texto transformado y cualquier metadato incluido.

Características clave y utilidad

  • Extracción flexible de contenido: Controla exactamente qué partes de tus documentos se extraen (por ejemplo, solo encabezados principales y párrafos, o todo el contenido).
  • Inclusión de metadatos: Incluye opcionalmente metadatos enriquecidos (por ejemplo, autor, producto o datos estructurados) en la salida, útil para contextualización posterior.
  • Gestión del límite de tokens: Restringe el tamaño de la salida para adaptarla a los requisitos de modelos posteriores estableciendo un máximo de tokens.
  • Estrategia de extracción personalizada:
    • Concatenar documentos, llenar desde el primero hasta el límite de tokens: Da prioridad al llenado secuencial desde el primer documento.
    • Incluir tamaño igual de cada documento: Equilibra el contenido de varios documentos dentro del límite de tokens.
  • Gestión inteligente de secciones: Opciones para omitir pies de página o comenzar desde la sección más relevante para tu consulta, aumentando la pertinencia del texto extraído.

Casos de uso típicos

  • Preprocesamiento de bases de conocimiento para modelos de IA (por ejemplo, antes de incrustar o indexar).
  • Resumir o condensar documentos grandes extrayendo solo las secciones relevantes.
  • Alimentar contenido estructurado a chatbots, motores de búsqueda u otros flujos de procesamiento de lenguaje natural.
  • Construir sistemas híbridos de recuperación que combinen texto con metadatos para un contexto más rico.

Tabla resumen

CapacidadDescripción
Tipos de entradaLista de Documentos
Tipo de salidaMensaje (Texto + Metadatos)
Granularidad del contenidoSelección de encabezados/párrafos a incluir
Opciones de metadatosSelección múltiple de campos de metadatos a exportar
Control del tamaño de la salidaEstablecer máximo de tokens
Estrategias de extracciónConcatenar o equilibrar entre documentos
Selección de seccionesComenzar desde H1, desde puntero o omitir último encabezado

Estrategia

El bot puede rastrear muchos documentos para crear la salida de texto. El ajuste de Estrategia te permite controlar cómo utiliza estos documentos de manera inteligente manteniéndose dentro del límite de tokens.

Actualmente, hay dos estrategias posibles:

  • Incluir tamaño igual de cada documento: Utiliza todos los documentos encontrados por igual.
  • Concatenar documentos, llenar desde el primero hasta el límite de tokens: Vincula los documentos priorizándolos según su relevancia para la consulta.

Cómo conectar el componente Documento a Texto a tu flujo

Este es un componente transformador, lo que significa que actúa como puente entre dos salidas. Documento a Texto toma Documentos generados por los componentes Recuperadores:

  • Recuperador de Documentos – obtiene conocimiento de fuentes conectadas (páginas, documentos, etc.).
  • Recuperador de URL – Permite especificar una URL desde la cual el bot debe obtener conocimiento.
  • GoogleSearch – Permite que el bot busque conocimiento en la web.

El conocimiento se convierte en texto Markdown legible al pasar por el transformador. Este texto puede conectarse luego a componentes que requieran entrada de texto, como divisores, widgets o salidas.

Aquí tienes un ejemplo de flujo usando el componente Documento a Texto para unir los Recuperadores de Documentos y el Generador de IA:

Example of how to use Document Retriever in Flowhunt

Preguntas frecuentes

¿Qué es el componente Documento a Texto?

El componente obtiene conocimiento de los componentes tipo recuperador y lo transforma en texto markdown legible, que luego puede conectarse a cualquier componente que acepte texto como entrada.

Prueba Documento a Texto en FlowHunt

Comienza a construir soluciones de IA más inteligentes con el componente Documento a Texto de FlowHunt. Convierte datos en texto procesable y mejora tus flujos de trabajo automatizados sin esfuerzo.

Saber más