Documento para Texto

Transforme dados estruturados em texto markdown legível com o componente Documento para Texto do FlowHunt, oferecendo controles personalizáveis para uma saída eficiente e relevante gerada por IA.

Documento para Texto

Descrição do componente

Como o componente Documento para Texto funciona

A IA pode analisar grandes quantidades de dados em segundos, mas apenas parte desses dados será relevante ou adequada para a saída. O componente Documento para Texto oferece controle sobre como os dados provenientes dos recuperadores são processados e transformados em texto.

Componente Documento para Texto

O Documento para Texto foi projetado para transformar documentos de conhecimento em formato de texto simples. Isso é especialmente útil em fluxos de trabalho de IA e processamento de dados onde dados textuais são necessários para processamento posterior, análise ou como entrada para modelos de linguagem.

O que o Componente Faz

Este componente aceita um ou mais documentos estruturados (como HTML, Markdown, PDFs ou outros formatos suportados) e extrai o conteúdo textual. Permite especificar exatamente quais partes dos documentos exportar, se deseja incluir metadados e como tratar seções ou cabeçalhos dos documentos. A saída é um objeto de mensagem unificado contendo o texto extraído, pronto para tarefas subsequentes como sumarização, classificação ou resposta a perguntas.

Entradas

O componente aceita várias entradas configuráveis:

Nome da EntradaTipoObrigatórioDescriçãoValor Padrão
DocumentosLista[Documento]SimOs documentos de conhecimento a serem transformados em texto.N/A (fornecido pelo usuário)
Do H1 se existirBooleanoSimIniciar a extração a partir do primeiro cabeçalho H1, se presente.true
Carregar do ponteiroBooleanoSimIniciar a extração do ponteiro que melhor corresponde à consulta, ou carregar tudo se não houver correspondência.true
Max TokensInteiroNãoNúmero máximo de tokens no texto de saída.3000
Pular Último CabeçalhoBooleanoSimPular o último cabeçalho (geralmente rodapé) para otimizar a saída.false
EstratégiaTextoSimEstratégia de extração: concatenar documentos ou incluir tamanho igual de cada um.“Incluir tamanho igual de cada documento”
Exportar ConteúdoMulti-seleçãoNãoQuais tipos de conteúdo incluir (ex: H1, H2, Parágrafo).Todos os tipos selecionados
Incluir MetadadosMulti-seleçãoNãoQuais campos de metadados incluir na saída, se disponíveis.Produto

Tipos de Conteúdo disponíveis: H1, H2, H3, H4, H5, H6, Parágrafo
Opções de Metadados: Autor, Produto, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Saídas

O componente produz a seguinte saída:

  • Mensagem: Um objeto de mensagem contendo o texto transformado e quaisquer metadados incluídos.

Principais Recursos & Utilidade

  • Extração Flexível de Conteúdo: Controle precisamente quais partes dos seus documentos serão extraídas (ex: apenas cabeçalhos principais e parágrafos, ou todo o conteúdo).
  • Inclusão de Metadados: Opcionalmente, inclua metadados ricos (ex: autor, produto ou dados estruturados) na saída, útil para contextualização posterior.
  • Gerenciamento de Limite de Tokens: Limite o tamanho da saída para atender aos requisitos do modelo subsequente, definindo um número máximo de tokens.
  • Estratégia de Extração Personalizada:
    • Concatenar documentos, preencher do primeiro até o limite de tokens: Prioriza o preenchimento sequencial da saída a partir do primeiro documento.
    • Incluir tamanho igual de cada documento: Equilibra o conteúdo de vários documentos dentro do limite de tokens.
  • Tratamento Inteligente de Seções: Opções para pular rodapés ou iniciar a partir da seção mais relevante para sua consulta, aumentando a relevância do texto extraído.

Casos de Uso Típicos

  • Pré-processamento de bases de conhecimento para modelos de IA (ex: antes de embutir ou indexar).
  • Sumarização ou condensação de documentos grandes extraindo apenas as seções relevantes.
  • Alimentar conteúdo estruturado em chatbots, motores de busca ou outros fluxos de processamento de linguagem natural.
  • Construção de sistemas híbridos de recuperação que combinam texto com metadados para contexto mais rico.

Tabela Resumo

CapacidadeDescrição
Tipos de EntradaLista de Documentos
Tipo de SaídaMensagem (Texto + Metadados)
Granularidade de ConteúdoSelecionar cabeçalhos/parágrafos a incluir
Opções de MetadadosSelecionar múltiplos campos de metadados para exportação
Controle de Tamanho da SaídaDefinir o máximo de tokens
Estratégias de ExtraçãoConcatenar ou balancear entre documentos
Seleção de SeçãoComeçar do H1, do ponteiro ou pular o último cabeçalho

Estratégia

O bot pode rastrear vários documentos para criar a saída de texto. A configuração Estratégia permite controlar como ele utiliza esses documentos de forma inteligente, mantendo-se dentro do limite de tokens.

Atualmente, existem duas estratégias possíveis:

  • Incluir tamanho igual de cada documento: Utiliza todos os documentos encontrados de maneira igualitária.
  • Concatenar documentos, preencher do primeiro até o limite de tokens: Junta os documentos priorizando-os pela relevância para a consulta.

Como conectar o componente Documento para Texto ao seu fluxo

Este é um componente transformador, ou seja, faz a ponte entre duas saídas. O Documento para Texto recebe Documentos fornecidos pelos componentes Recuperadores:

  • Recuperador de Documentos – obtém conhecimento de fontes conectadas (páginas, documentos, etc.).
  • Recuperador de URL – Permite especificar uma URL da qual o bot deve obter conhecimento.
  • GoogleSearch – Dá ao bot a capacidade de pesquisar conhecimento na web.

O conhecimento é convertido em texto Markdown legível ao passar pelo transformador. Este texto pode então ser conectado a componentes que exijam entrada textual, como separadores, widgets ou saídas.

Aqui está um exemplo de fluxo utilizando o componente Documento para Texto para unir os Recuperadores de Documentos ao Gerador de IA:

Example of how to use Document Retriever in Flowhunt

Perguntas frequentes

O que é o componente Documento para Texto?

O componente obtém conhecimento de componentes do tipo recuperador e o transforma em texto markdown legível, que pode ser conectado a qualquer componente que aceite texto como entrada.

Experimente Documento para Texto no FlowHunt

Comece a criar soluções de IA mais inteligentes com o componente Documento para Texto do FlowHunt. Converta dados em texto acionável de forma integrada e potencialize seus fluxos de trabalho automatizados.

Saiba mais