Documento para Texto
Transforme dados estruturados em texto markdown legível com o componente Documento para Texto do FlowHunt, oferecendo controles personalizáveis para uma saída eficiente e relevante gerada por IA.

Descrição do componente
Como o componente Documento para Texto funciona
A IA pode analisar grandes quantidades de dados em segundos, mas apenas parte desses dados será relevante ou adequada para a saída. O componente Documento para Texto oferece controle sobre como os dados provenientes dos recuperadores são processados e transformados em texto.
Componente Documento para Texto
O Documento para Texto foi projetado para transformar documentos de conhecimento em formato de texto simples. Isso é especialmente útil em fluxos de trabalho de IA e processamento de dados onde dados textuais são necessários para processamento posterior, análise ou como entrada para modelos de linguagem.
O que o Componente Faz
Este componente aceita um ou mais documentos estruturados (como HTML, Markdown, PDFs ou outros formatos suportados) e extrai o conteúdo textual. Permite especificar exatamente quais partes dos documentos exportar, se deseja incluir metadados e como tratar seções ou cabeçalhos dos documentos. A saída é um objeto de mensagem unificado contendo o texto extraído, pronto para tarefas subsequentes como sumarização, classificação ou resposta a perguntas.
Entradas
O componente aceita várias entradas configuráveis:
Nome da Entrada | Tipo | Obrigatório | Descrição | Valor Padrão |
---|---|---|---|---|
Documentos | Lista[Documento] | Sim | Os documentos de conhecimento a serem transformados em texto. | N/A (fornecido pelo usuário) |
Do H1 se existir | Booleano | Sim | Iniciar a extração a partir do primeiro cabeçalho H1, se presente. | true |
Carregar do ponteiro | Booleano | Sim | Iniciar a extração do ponteiro que melhor corresponde à consulta, ou carregar tudo se não houver correspondência. | true |
Max Tokens | Inteiro | Não | Número máximo de tokens no texto de saída. | 3000 |
Pular Último Cabeçalho | Booleano | Sim | Pular o último cabeçalho (geralmente rodapé) para otimizar a saída. | false |
Estratégia | Texto | Sim | Estratégia de extração: concatenar documentos ou incluir tamanho igual de cada um. | “Incluir tamanho igual de cada documento” |
Exportar Conteúdo | Multi-seleção | Não | Quais tipos de conteúdo incluir (ex: H1, H2, Parágrafo). | Todos os tipos selecionados |
Incluir Metadados | Multi-seleção | Não | Quais campos de metadados incluir na saída, se disponíveis. | Produto |
Tipos de Conteúdo disponíveis: H1, H2, H3, H4, H5, H6, Parágrafo
Opções de Metadados: Autor, Produto, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph
Saídas
O componente produz a seguinte saída:
- Mensagem: Um objeto de mensagem contendo o texto transformado e quaisquer metadados incluídos.
Principais Recursos & Utilidade
- Extração Flexível de Conteúdo: Controle precisamente quais partes dos seus documentos serão extraídas (ex: apenas cabeçalhos principais e parágrafos, ou todo o conteúdo).
- Inclusão de Metadados: Opcionalmente, inclua metadados ricos (ex: autor, produto ou dados estruturados) na saída, útil para contextualização posterior.
- Gerenciamento de Limite de Tokens: Limite o tamanho da saída para atender aos requisitos do modelo subsequente, definindo um número máximo de tokens.
- Estratégia de Extração Personalizada:
- Concatenar documentos, preencher do primeiro até o limite de tokens: Prioriza o preenchimento sequencial da saída a partir do primeiro documento.
- Incluir tamanho igual de cada documento: Equilibra o conteúdo de vários documentos dentro do limite de tokens.
- Tratamento Inteligente de Seções: Opções para pular rodapés ou iniciar a partir da seção mais relevante para sua consulta, aumentando a relevância do texto extraído.
Casos de Uso Típicos
- Pré-processamento de bases de conhecimento para modelos de IA (ex: antes de embutir ou indexar).
- Sumarização ou condensação de documentos grandes extraindo apenas as seções relevantes.
- Alimentar conteúdo estruturado em chatbots, motores de busca ou outros fluxos de processamento de linguagem natural.
- Construção de sistemas híbridos de recuperação que combinam texto com metadados para contexto mais rico.
Tabela Resumo
Capacidade | Descrição |
---|---|
Tipos de Entrada | Lista de Documentos |
Tipo de Saída | Mensagem (Texto + Metadados) |
Granularidade de Conteúdo | Selecionar cabeçalhos/parágrafos a incluir |
Opções de Metadados | Selecionar múltiplos campos de metadados para exportação |
Controle de Tamanho da Saída | Definir o máximo de tokens |
Estratégias de Extração | Concatenar ou balancear entre documentos |
Seleção de Seção | Começar do H1, do ponteiro ou pular o último cabeçalho |
Estratégia
O bot pode rastrear vários documentos para criar a saída de texto. A configuração Estratégia permite controlar como ele utiliza esses documentos de forma inteligente, mantendo-se dentro do limite de tokens.
Atualmente, existem duas estratégias possíveis:
- Incluir tamanho igual de cada documento: Utiliza todos os documentos encontrados de maneira igualitária.
- Concatenar documentos, preencher do primeiro até o limite de tokens: Junta os documentos priorizando-os pela relevância para a consulta.
Como conectar o componente Documento para Texto ao seu fluxo
Este é um componente transformador, ou seja, faz a ponte entre duas saídas. O Documento para Texto recebe Documentos fornecidos pelos componentes Recuperadores:
- Recuperador de Documentos – obtém conhecimento de fontes conectadas (páginas, documentos, etc.).
- Recuperador de URL – Permite especificar uma URL da qual o bot deve obter conhecimento.
- GoogleSearch – Dá ao bot a capacidade de pesquisar conhecimento na web.
O conhecimento é convertido em texto Markdown legível ao passar pelo transformador. Este texto pode então ser conectado a componentes que exijam entrada textual, como separadores, widgets ou saídas.
Aqui está um exemplo de fluxo utilizando o componente Documento para Texto para unir os Recuperadores de Documentos ao Gerador de IA:

Perguntas frequentes
- O que é o componente Documento para Texto?
O componente obtém conhecimento de componentes do tipo recuperador e o transforma em texto markdown legível, que pode ser conectado a qualquer componente que aceite texto como entrada.
Experimente Documento para Texto no FlowHunt
Comece a criar soluções de IA mais inteligentes com o componente Documento para Texto do FlowHunt. Converta dados em texto acionável de forma integrada e potencialize seus fluxos de trabalho automatizados.