Documento a Texto
Transforma datos estructurados en texto markdown legible con el componente Documento a Texto de FlowHunt, que ofrece controles personalizables para una salida eficiente y relevante potenciada por IA.

Descripción del componente
Cómo funciona el componente Documento a Texto
La IA puede analizar grandes cantidades de datos en segundos, pero solo algunos de esos datos serán relevantes o adecuados para la salida. El componente Documento a Texto te da control sobre cómo se procesan y transforman en texto los datos de los recuperadores.
Componente Documento a Texto
El componente Documento a Texto está diseñado para transformar documentos de conocimiento en formato de texto plano. Esto es especialmente útil en flujos de trabajo de IA y procesamiento de datos donde se requiere información textual para procesamiento posterior, análisis o como entrada para modelos de lenguaje.
Qué hace el componente
Este componente toma uno o más documentos estructurados (como HTML, Markdown, PDF u otros formatos compatibles) y extrae su contenido textual. Te permite especificar exactamente qué partes de los documentos exportar, si incluir metadatos y cómo manejar secciones o encabezados del documento. La salida es un objeto de mensaje unificado que contiene el texto extraído, listo para tareas posteriores como resumen, clasificación o respuesta a preguntas.
Entradas
El componente acepta varias entradas configurables:
Nombre de Entrada | Tipo | Requerido | Descripción | Valor por Defecto |
---|---|---|---|---|
Documentos | Lista[Documento] | Sí | Los documentos de conocimiento a transformar en texto. | N/A (proporcionado por el usuario) |
Desde H1 si existe | Booleano | Sí | Iniciar la extracción desde el primer encabezado H1 si está presente. | true |
Cargar desde puntero | Booleano | Sí | Iniciar la extracción desde el puntero que mejor coincida con la consulta de entrada, o cargar todos si no coincide. | true |
Máximo de Tokens | Entero | No | Número máximo de tokens en el texto de salida. | 3000 |
Omitir último encabezado | Booleano | Sí | Omitir el último encabezado (a menudo es un pie de página) para optimizar la salida. | false |
Estrategia | Cadena | Sí | Estrategia de extracción de texto: concatenar documentos o incluir tamaño igual de cada uno. | “Incluir tamaño igual de cada documento” |
Exportar contenido | Multi-selección | No | Qué tipos de contenido incluir (por ejemplo, H1, H2, Párrafo). | Todos los tipos seleccionados |
Incluir metadatos | Multi-selección | No | Campos de metadatos a incluir en la salida si están disponibles. | Producto |
Tipos de contenido disponibles: H1, H2, H3, H4, H5, H6, Párrafo
Opciones de metadatos: Autor, Producto, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph
Salidas
El componente produce la siguiente salida:
- Mensaje: Un objeto de mensaje que contiene el texto transformado y cualquier metadato incluido.
Características clave y utilidad
- Extracción flexible de contenido: Controla exactamente qué partes de tus documentos se extraen (por ejemplo, solo encabezados principales y párrafos, o todo el contenido).
- Inclusión de metadatos: Incluye opcionalmente metadatos enriquecidos (por ejemplo, autor, producto o datos estructurados) en la salida, útil para contextualización posterior.
- Gestión del límite de tokens: Restringe el tamaño de la salida para adaptarla a los requisitos de modelos posteriores estableciendo un máximo de tokens.
- Estrategia de extracción personalizada:
- Concatenar documentos, llenar desde el primero hasta el límite de tokens: Da prioridad al llenado secuencial desde el primer documento.
- Incluir tamaño igual de cada documento: Equilibra el contenido de varios documentos dentro del límite de tokens.
- Gestión inteligente de secciones: Opciones para omitir pies de página o comenzar desde la sección más relevante para tu consulta, aumentando la pertinencia del texto extraído.
Casos de uso típicos
- Preprocesamiento de bases de conocimiento para modelos de IA (por ejemplo, antes de incrustar o indexar).
- Resumir o condensar documentos grandes extrayendo solo las secciones relevantes.
- Alimentar contenido estructurado a chatbots, motores de búsqueda u otros flujos de procesamiento de lenguaje natural.
- Construir sistemas híbridos de recuperación que combinen texto con metadatos para un contexto más rico.
Tabla resumen
Capacidad | Descripción |
---|---|
Tipos de entrada | Lista de Documentos |
Tipo de salida | Mensaje (Texto + Metadatos) |
Granularidad del contenido | Selección de encabezados/párrafos a incluir |
Opciones de metadatos | Selección múltiple de campos de metadatos a exportar |
Control del tamaño de la salida | Establecer máximo de tokens |
Estrategias de extracción | Concatenar o equilibrar entre documentos |
Selección de secciones | Comenzar desde H1, desde puntero o omitir último encabezado |
Estrategia
El bot puede rastrear muchos documentos para crear la salida de texto. El ajuste de Estrategia te permite controlar cómo utiliza estos documentos de manera inteligente manteniéndose dentro del límite de tokens.
Actualmente, hay dos estrategias posibles:
- Incluir tamaño igual de cada documento: Utiliza todos los documentos encontrados por igual.
- Concatenar documentos, llenar desde el primero hasta el límite de tokens: Vincula los documentos priorizándolos según su relevancia para la consulta.
Cómo conectar el componente Documento a Texto a tu flujo
Este es un componente transformador, lo que significa que actúa como puente entre dos salidas. Documento a Texto toma Documentos generados por los componentes Recuperadores:
- Recuperador de Documentos – obtiene conocimiento de fuentes conectadas (páginas, documentos, etc.).
- Recuperador de URL – Permite especificar una URL desde la cual el bot debe obtener conocimiento.
- GoogleSearch – Permite que el bot busque conocimiento en la web.
El conocimiento se convierte en texto Markdown legible al pasar por el transformador. Este texto puede conectarse luego a componentes que requieran entrada de texto, como divisores, widgets o salidas.
Aquí tienes un ejemplo de flujo usando el componente Documento a Texto para unir los Recuperadores de Documentos y el Generador de IA:

Preguntas frecuentes
- ¿Qué es el componente Documento a Texto?
El componente obtiene conocimiento de los componentes tipo recuperador y lo transforma en texto markdown legible, que luego puede conectarse a cualquier componente que acepte texto como entrada.
Prueba Documento a Texto en FlowHunt
Comienza a construir soluciones de IA más inteligentes con el componente Documento a Texto de FlowHunt. Convierte datos en texto procesable y mejora tus flujos de trabajo automatizados sin esfuerzo.