Derrotando a Não Determinística em LLMs: Solucionando a Crise de Reprodutibilidade da IA

Derrotando a Não Determinística em LLMs: Solucionando a Crise de Reprodutibilidade da IA

AI LLMs Machine Learning AI Engineering

Introdução

A crise de reprodutibilidade em inteligência artificial há muito é um desafio para pesquisadores, engenheiros e empresas que dependem de grandes modelos de linguagem. Quando você faz a mesma pergunta ao ChatGPT duas vezes, raramente recebe respostas idênticas—um fenômeno que mina o rigor científico e a confiabilidade prática. Recentemente, Mira Murati, ex-CTO da OpenAI, fundou o Thinking Machines Lab com uma missão ousada: solucionar um dos problemas mais fundamentais da IA—o não determinismo na inferência de LLMs. Por meio do blog de pesquisa Connectionism, eles publicaram trabalhos pioneiros sobre como derrotar o não determinismo, revelando não só as causas dessa inconsistência, mas também soluções práticas que podem transformar a forma como construímos e confiamos em sistemas de IA. Este artigo explica as descobertas deles, detalha os mecanismos técnicos por trás da variabilidade em LLMs e explora as implicações para o futuro da confiabilidade em IA.

Thumbnail for Ex-OpenAI CTO Reveals Plan to Fix LLMs Biggest Problem

Compreendendo o Não Determinismo: O Problema Central

O não determinismo em grandes modelos de linguagem é um conceito aparentemente simples, mas com implicações profundas. Quando você fornece exatamente o mesmo prompt a um LLM várias vezes, recebe respostas diferentes—às vezes ligeiramente, às vezes drasticamente diferentes. Essa inconsistência viola um dos princípios fundamentais do método científico: a reprodutibilidade. A reprodutibilidade é considerada a base do progresso científico, mas é incrivelmente difícil de alcançar com os grandes modelos de linguagem modernos. O problema não é apenas um incômodo; representa uma vulnerabilidade crítica na implantação de sistemas de IA em setores onde consistência e confiabilidade são essenciais. Seja você usando um LLM para apoio em diagnóstico médico, análise de documentos jurídicos, previsão financeira ou pesquisa científica, a incapacidade de reproduzir resultados cria uma cascata de problemas que afeta confiança, validação e conformidade regulatória.

A manifestação do não determinismo é observável e frustrante. Execute o mesmo prompt dez vezes em um LLM e pode receber dez respostas diferentes. Mesmo ao tentar eliminar a aleatoriedade ajustando o parâmetro de temperatura para zero—que teoricamente deveria produzir saídas determinísticas—o modelo ainda gera resultados diferentes. Essa persistência da variabilidade, mesmo sob condições supostamente determinísticas, intrigou pesquisadores por anos. O senso comum sugeria que isso era simplesmente “como os modelos de linguagem funcionam”, uma característica inerente à tecnologia. No entanto, a pesquisa do Thinking Machines revela que essa suposição estava incompleta. As verdadeiras causas do não determinismo são muito mais específicas e, importante, solucionáveis através de intervenções técnicas direcionadas.

Por Que a Reprodutibilidade Importa: O Caso Científico e Empresarial

A importância de derrotar o não determinismo vai muito além da curiosidade acadêmica. Na prática, a reprodutibilidade é essencial para construir sistemas de IA confiáveis que as organizações possam implantar com confiança em ambientes de produção. Quando um LLM produz saídas inconsistentes, torna-se quase impossível depurar problemas de forma eficaz. Se um modelo gera uma resposta incorreta ou prejudicial, os engenheiros não conseguem reproduzir o problema de forma confiável para entender o que deu errado. Isso torna extremamente difícil identificar se o problema está no próprio modelo, no prompt, nos dados ou em outro fator. A depuração vira um jogo de sorte, não mais um processo sistemático de eliminação.

Além da depuração, a reprodutibilidade é crítica para auditoria e verificação. Órgãos reguladores, equipes de compliance e segurança precisam entender como os sistemas de IA tomam decisões. Quando as saídas são não determinísticas, a auditoria se torna um pesadelo. Não é possível rastrear uma resposta específica até suas causas com certeza. Isso é especialmente problemático em setores regulados como saúde, finanças e direito, onde explicabilidade e auditabilidade são exigências legais. Além disso, a avaliação de desempenho (benchmarking) torna-se pouco confiável quando entradas e saídas são não determinísticas. Se você está comparando dois modelos ou versões de um mesmo modelo, precisa de resultados estáveis e reproduzíveis para ter comparações significativas. O não determinismo introduz ruído nos benchmarks, dificultando saber se as diferenças de desempenho são reais ou apenas fruto do acaso.

Do ponto de vista da confiança do usuário, a reprodutibilidade é igualmente importante. Usuários querem saber que, ao perguntar algo ao sistema de IA, receberão uma resposta consistente e confiável. Se a mesma pergunta gera respostas completamente diferentes, os usuários perdem a confiança no sistema. Isso é especialmente relevante para aplicações onde a IA é usada para suporte à decisão ou recuperação de informações. Além disso, a reprodutibilidade permite melhor engenharia e otimização de prompts. Se você não pode reproduzir resultados, não pode melhorar sistematicamente seus prompts ou entender quais variações realmente funcionam melhor.

As Raízes Técnicas do Não Determinismo: Aritmética de Ponto Flutuante e Execução Concorrente

A hipótese tradicional para explicar por que LLMs produzem resultados não determinísticos centrou-se em dois fatores técnicos: não associatividade da aritmética de ponto flutuante e execução concorrente em GPUs. Entender esses conceitos exige mergulhar nas bases matemáticas e computacionais do funcionamento das redes neurais. Números de ponto flutuante são o padrão para representar números decimais em computadores—valores como 5,23 ou 3,14159. Contudo, computadores não podem armazenar precisão infinita. Em algum ponto, é necessário arredondar o número para encaixá-lo na memória disponível. Esse arredondamento introduz pequenos erros e, ao realizar milhões ou bilhões de operações matemáticas, esses erros se acumulam e se propagam.

A não associatividade é especialmente relevante. Em matemática pura, a soma é associativa: (a + b) + c é igual a a + (b + c). Mas na aritmética de ponto flutuante, isso nem sempre acontece por causa dos erros de arredondamento. Dependendo da ordem da soma, o resultado pode ser um pouco diferente. Isso pode parecer trivial, mas, no contexto de cálculos envolvendo bilhões de parâmetros, essas pequenas diferenças podem se propagar pela rede e eventualmente afetar qual token o modelo escolhe como próxima saída.

O segundo fator é a execução concorrente em GPUs. As GPUs são projetadas para realizar muitos cálculos simultaneamente. Ao receber uma operação matemática, a GPU não executa de forma sequencial; ela distribui o trabalho entre milhares de núcleos rodando em paralelo. O problema é que você geralmente não sabe qual núcleo terminará primeiro. Essa ordem não determinística pode afetar o resultado final, especialmente quando as operações dependem umas das outras ou quando os resultados são agregados. Alguns hardwares especializados, como chips de empresas como Groq, lidam com isso usando arquiteturas completamente simétricas, nas quais se sabe exatamente quanto tempo cada operação demorará. Porém, a maioria das GPUs não possui essa propriedade.

O Verdadeiro Vilão: Variabilidade do Tamanho do Batch

Apesar das hipóteses sobre ponto flutuante e execução concorrente conterem verdade, a pesquisa do Thinking Machines revela que elas não contam toda a história. O verdadeiro vilão por trás do não determinismo em LLMs é a variabilidade do tamanho do batch. Para entender isso, imagine um sistema de carona compartilhada. Quando você envia um prompt para um LLM, sua solicitação não é processada isoladamente. Em vez disso, ela é agrupada com outras solicitações em um batch—uma carona coletiva de perguntas. Quando o sistema está ocupado, o batch é grande, com muitos pedidos. Quando está tranquilo, o batch é pequeno. O tamanho do batch não é fixo; ele muda dinamicamente conforme a carga do sistema.

O grande insight é que o tamanho do batch afeta a ordem em que as pequenas operações matemáticas são realizadas dentro da rede neural. Diferentes tamanhos de batch podem fazer com que as mesmas operações matemáticas sejam executadas em ordens diferentes. Embora as operações sejam idênticas, a ordem importa devido à não associatividade do ponto flutuante. Uma ordem ligeiramente diferente leva a resultados intermediários um pouco diferentes, que podem se propagar pela rede e acabar mudando qual token o modelo escolhe como saída. Como os LLMs funcionam prevendo um token por vez, e cada previsão depende das anteriores, uma única diferença no início pode resultar em saídas completamente diferentes ao final.

Esse é um insight sutil, mas profundo. Isso significa que o não determinismo não é inerente à arquitetura do modelo ou à natureza das redes neurais, mas sim uma consequência de como o batching é implementado na inferência. O tamanho do batch é uma variável que muda conforme as condições do sistema, e essa variabilidade se traduz diretamente em variabilidade nas saídas. Essa descoberta é importante porque sugere que o problema pode ser resolvido com engenharia cuidadosa do pipeline de inferência.

A Solução: Kernels Invariantes ao Batch e Processamento Determinístico

A solução do Thinking Machines para o não determinismo envolve três correções técnicas coordenadas, chamadas de kernels invariantes ao batch. A primeira garante que, independentemente do tamanho do batch, as operações computacionais sejam ponderadas e normalizadas de maneira consistente. Usando uma analogia de restaurante: imagine que você está preparando tigelas de comida. É preciso garantir que cada tigela tenha o mesmo peso, esteja a cozinha cheia ou vazia. Isso significa implementar kernels computacionais que mantenham normalização e ponderação consistentes, não importa quantos pedidos estejam no batch. O custo é possível perda de velocidade—a execução pode ficar um pouco mais lenta para garantir consistência. Mas o ganho de consistência vale muito mais que a perda marginal de desempenho.

A segunda correção envolve manter a etapa de mistura idêntica em todos os tamanhos de batch. Em redes neurais, há operações de mistura onde diferentes componentes são combinados. Essas operações devem ser realizadas exatamente da mesma forma, independentemente do tamanho do batch. Isso exige implementação cuidadosa dos kernels para garantir que a ordem e o método de mistura permaneçam constantes. Novamente, isso pode trazer algum overhead computacional, mas o benefício de saídas determinísticas compensa o custo.

A terceira correção aborda o mecanismo de atenção, central nos modelos baseados em transformers. O mecanismo de atenção permite ao modelo olhar para trás e ponderar diferentes partes do texto. Quando o texto é processado em blocos de tamanhos diferentes, a ordem das operações no mecanismo de atenção pode mudar. A solução é usar sempre o mesmo tamanho de bloco, garantindo que o mecanismo de atenção processe as informações na mesma ordem. Essa consistência no processamento da atenção é crucial para saídas determinísticas.

Validação e Resultados: Prova de Conceito

O verdadeiro teste de qualquer afirmação científica é a validação empírica. O Thinking Machines testou sua solução usando o Qwen 2.5B, um grande modelo de linguagem, e conduziu um experimento rigoroso. Eles geraram 1.000 respostas com temperatura zero (configuração de menor aleatoriedade) usando o mesmo prompt: “Fale sobre Richard Feynman.” Cada resposta gerou 1.000 tokens. Antes de implementar os kernels invariantes ao batch, os resultados foram decepcionantes, mas reveladores. Das 1.000 respostas, surgiram 80 respostas únicas, sendo a mais frequente aparecendo apenas 78 vezes. Esse cenário mostrou a gravidade do problema—mesmo com temperatura zero, o modelo produziu 80 saídas diferentes.

Após ativar os kernels invariantes ao batch, os resultados foram dramáticos: todas as 1.000 respostas foram idênticas. O determinismo perfeito foi alcançado. Não foi uma melhoria marginal, mas sim a eliminação total do não determinismo. Todas as execuções geraram exatamente o mesmo resultado. Essa validação é crucial porque prova que o problema é de fato solucionável e que a solução proposta realmente funciona. O experimento foi realizado com um modelo de linguagem real, de escala de produção, não um modelo simplificado—o que torna os resultados ainda mais significativos.

Implicações para Confiança, Depuração e Auditoria em IA

Conquistar saídas determinísticas em LLMs tem implicações amplas para como construímos, implantamos e confiamos em sistemas de IA. Em primeiro lugar, o determinismo possibilita depuração confiável. Quando um modelo produz uma resposta incorreta ou inesperada, os engenheiros agora podem reproduzir o problema de forma consistente. Isso transforma a depuração de um jogo de sorte em um processo sistemático. Os engenheiros podem rastrear exatamente o caminho computacional que levou ao erro, identificar onde ocorreu a falha e implementar correções com a confiança de que realmente resolveram o problema.

Em segundo lugar, o determinismo melhora drasticamente a auditabilidade. Órgãos reguladores, equipes de compliance e segurança agora podem auditar sistemas de IA com muito mais segurança. Quando você pode reproduzir saídas de forma consistente, pode rastrear todos os fatores que influenciaram uma decisão. Isso é especialmente importante em setores como saúde, finanças e direito, onde explicabilidade é requisito legal. Auditores podem verificar se o modelo está se comportando conforme esperado e se não está gerando respostas enviesadas ou prejudiciais devido à aleatoriedade não determinística.

Em terceiro, o benchmarking torna-se muito mais confiável. Ao comparar dois modelos ou versões diferentes, pesquisadores podem ter certeza de que as diferenças de desempenho são reais e não artefatos do acaso. Isso permite avaliações científicas mais rigorosas e decisões mais informadas sobre quais modelos implantar. Além disso, o determinismo permite melhor engenharia e otimização de prompts. Pesquisadores podem testar sistematicamente diferentes prompts e medir seus efeitos com confiança de que os resultados são reproduzíveis.

Aplicação no FlowHunt: Automatizando Fluxos de IA Confiáveis

Para organizações que usam o FlowHunt para automatizar fluxos de trabalho em IA, as implicações dos LLMs determinísticos são significativas. O FlowHunt permite aos usuários construir fluxos de trabalho complexos e multi-etapas integrando modelos de linguagem a outras ferramentas e processos. Quando os LLMs são não determinísticos, esses fluxos tornam-se pouco confiáveis—o mesmo input pode gerar saídas diferentes, levando a resultados inconsistentes nos passos seguintes. Com LLMs determinísticos, os usuários do FlowHunt podem construir fluxos com muito mais confiança em sua confiabilidade e consistência.

Os recursos de automação do FlowHunt são especialmente valiosos quando combinados a LLMs determinísticos. Usuários podem criar fluxos que dependem de saídas específicas dos modelos, sabendo que essas saídas serão consistentes e reproduzíveis. Isso possibilita automação mais sofisticada, melhor tratamento de erros e integração mais confiável com outros sistemas. Por exemplo, um fluxo que extrai informações de documentos usando um LLM pode ter certeza de que o mesmo documento sempre gerará as mesmas informações extraídas. Essa consistência é fundamental para construir automações de IA confiáveis e prontas para produção.

Considerações Avançadas: Quando o Determinismo Não é Desejado

Embora saídas determinísticas sejam geralmente desejáveis, há casos importantes em que o não determinismo é na verdade benéfico. Escrita criativa é o exemplo mais óbvio. Se você usa um LLM para gerar conteúdo criativo—contos, poesias, textos de marketing—provavelmente deseja variabilidade. Quer que o modelo gere saídas diferentes a cada execução, e não a mesma resposta repetida. Nesses casos, o usuário pode querer desabilitar o modo determinístico e permitir que o modelo produza resultados variados.

De forma semelhante, em aplicações de brainstorming ou ideação, a variabilidade pode ser valiosa. Se você usa um LLM para gerar várias ideias ou perspectivas, quer respostas diferentes, não a mesma repetida. A solução é tornar o determinismo opcional—os usuários podem habilitá-lo quando precisam de reprodutibilidade e desabilitá-lo quando querem variabilidade. Essa flexibilidade é importante para garantir que LLMs determinísticos não limitem desnecessariamente casos de uso onde a variabilidade é desejável.

O Impacto Amplo no Desenvolvimento e Implantação de IA

O trabalho do Thinking Machines ao derrotar o não determinismo representa um avanço importante para tornar sistemas de IA mais confiáveis, seguros e prontos para produção. Essa pesquisa resolve um problema fundamental que aflige a indústria de IA desde o surgimento dos grandes modelos de linguagem. Ao solucionar esse problema, o Thinking Machines possibilita uma nova geração de aplicações de IA que podem ser implantadas com mais confiança em setores regulados e aplicações críticas.

As implicações vão além dos LLMs. As técnicas desenvolvidas para alcançar inferência determinística em LLMs podem ser aplicadas a outros tipos de redes neurais e sistemas de IA. Os princípios de kernels invariantes ao batch e ordem computacional consistente são universais e podem melhorar a confiabilidade de sistemas de IA em geral. À medida que a IA é cada vez mais integrada a infraestruturas críticas e processos decisórios, a importância da reprodutibilidade e do determinismo só tende a crescer.

Além disso, esse trabalho destaca o papel da pesquisa fundamental em IA. Enquanto grande parte da indústria foca em escalar modelos e adicionar capacidades, pesquisas como esta tratam de questões de base que permitem melhor implantação e confiança em sistemas de IA. O fato de uma ex-CTO da OpenAI dedicar seus esforços a resolver esse problema mostra sua importância e indica que a indústria de IA está começando a reconhecer que confiabilidade e reprodutibilidade são tão importantes quanto capacidade bruta.

Conclusão

O Thinking Machines Lab, de Mira Murati, identificou e resolveu um problema crítico na inferência de grandes modelos de linguagem: o não determinismo. Ao perceber que a variabilidade do tamanho do batch, e não apenas a aritmética de ponto flutuante ou a concorrência de GPUs, é a principal causa das saídas não determinísticas—e ao desenvolver kernels invariantes ao batch para tratar essa questão—eles demonstraram que a inferência determinística em LLMs é possível. A validação experimental com o Qwen 2.5B mostrou que o determinismo perfeito é alcançável—todas as 1.000 execuções de teste geraram saídas idênticas após a implementação da solução. Essa conquista tem profundas implicações para confiança, depuração, auditoria e implantação de sistemas de IA em setores regulados. À medida que organizações passam a depender dos LLMs para aplicações críticas, a capacidade de produzir saídas reproduzíveis e determinísticas será um requisito fundamental para sistemas de IA prontos para produção.

Perguntas frequentes

O que é não determinismo em grandes modelos de linguagem?

Não determinismo em LLMs refere-se ao fenômeno em que o mesmo prompt de entrada gera respostas diferentes a cada execução. Isso ocorre devido à precisão da aritmética de ponto flutuante, execução concorrente em GPUs e variações no tamanho do batch, dificultando a reprodução consistente dos resultados.

Por que derrotar o não determinismo é importante para sistemas de IA?

Vencer o não determinismo é crucial para confiança, depuração, auditoria e verificação de sistemas de IA. Quando as saídas são reprodutíveis, os benchmarks tornam-se mais confiáveis, os usuários podem confiar melhor nos resultados e fica mais fácil entender por que um modelo produz determinadas respostas.

O que é tecnologia de kernel invariante ao batch?

Kernels invariantes ao batch são uma solução técnica que garante que os cálculos de LLM produzam resultados idênticos independentemente do tamanho do batch. Ao manter a ordem de processamento e as etapas computacionais consistentes, essa tecnologia elimina a variabilidade causada por diferentes tamanhos de batch durante a inferência.

Como funciona a solução do Thinking Machines?

A solução do Thinking Machines envolve três correções principais: manter o peso do batch consistente independentemente da carga do sistema, manter a etapa de mistura idêntica em todos os batches e processar os mecanismos de atenção na mesma ordem. Essas mudanças garantem saídas determinísticas mantendo o desempenho razoável.

Quais são as aplicações práticas de LLMs determinísticas?

LLMs determinísticas são valiosas para pesquisa científica, conformidade regulatória, depuração, auditoria, benchmarking e qualquer aplicação onde a reprodutibilidade é crítica. No entanto, podem ser menos desejadas para aplicações criativas onde a variabilidade é benéfica.

Arshia é Engenheira de Fluxos de Trabalho de IA na FlowHunt. Com formação em ciência da computação e paixão por IA, ela se especializa em criar fluxos de trabalho eficientes que integram ferramentas de IA em tarefas do dia a dia, aumentando a produtividade e a criatividade.

Arshia Kahani
Arshia Kahani
Engenheira de Fluxos de Trabalho de IA

Automatize Seus Fluxos de Trabalho em IA com o FlowHunt

Construa fluxos de trabalho de IA confiáveis e reprodutíveis com a plataforma de automação inteligente do FlowHunt. Garanta a consistência nas suas operações de IA, do laboratório à produção.

Saiba mais

Por que os Modelos de Linguagem Alucinam? Pesquisa da OpenAI
Por que os Modelos de Linguagem Alucinam? Pesquisa da OpenAI

Por que os Modelos de Linguagem Alucinam? Pesquisa da OpenAI

Descubra como a mais recente pesquisa da OpenAI identifica por que modelos de linguagem alucinam e produzem inverdades confiantes. Entenda as causas raízes e so...

15 min de leitura
AI Language Models +3