“IA escreve a maioria do nosso código” parece um slogan de startup. Pode ser real para uma aplicação empresarial — clientes ativos, faturamento ativo, um monorepo onde uma mesclagem ruim custa dinheiro? Na QualityUnit é. Aqui está o rastro de evidências de dez meses e as regras que fazem isso funcionar.
TL;DR: Em dez meses, o trabalho escrito por agentes evoluiu dos primeiros PRs experimentais para 133 de 144 PRs de desenvolvimento mesclados em maio (92%) — verificado por uma auditoria forense de três vias de todos os 1.409 PRs mesclados, descendo até trailers de commit e uma inspeção manual de cada PR de 2026 sem marcação. Não aconteceu por “deixar a IA codificar”: aconteceu adicionando regras — uma configuração de harness de camada de risco, um pipeline de agentes em estágios com loops de revisão limitados, caminhos protegidos e um humano controlando cada mesclagem. As regras são o produto. E com um motor de contexto alimentando os agentes, o mesmo trabalho agora custa ~30% menos por tarefa (medido aqui ).
O que realmente é necessário
Não uma ferramenta. Um pipeline, um arquivo de política e um gate — executado por harnext .
O pipeline: agentes em estágios, um humano
O harness é harnext — o harness de agente de codificação agnóstico de provedor e de código aberto da QualityUnit. Em nosso monorepo de produção, cada problema que entra no pipeline executa o mesmo conjunto de estágios de agentes acionados por CI, seu progresso rastreado através de rótulos que um humano pode ler de relance:
Dois detalhes importam mais que a contagem de estágios. O loop é limitado: defeitos encontrados na revisão voltam ao estágio de implementação um número limitado de vezes — agentes convergem ou escalamam para um humano, eles não oscilam. Nada começa às cegas: antes de escrever uma linha, o agente implementador deve carregar as convenções do projeto e emitir um bloco de confirmação que revisores possam verificar.
O arquivo de política
A outra metade é uma política legível por máquina: cada caminho no repositório classificado em camadas de risco, cada camada com gates executáveis. CI lê; política de mesclagem lê; agentes são informados sobre isso. Não é um conselho:
Caminhos protegidos — migrações, pagamentos, autenticação — são arquivos que nenhum agente pode tocar. Limites arquiteturais são impostos, não sugeridos. Remova essas regras e um agente de codificação é um gerador muito rápido de passivos com aparência plausível.
Dez meses, um gráfico
O rastro de adoção, medido a partir do repositório em si.
O gráfico conta, para cada mês, quantos PRs de desenvolvimento mesclados carregam qualquer sinal de agente sólido — o rodapé do agente de codificação, os rótulos do pipeline, a convenção de camada do harness, trailers de co-autor de commit, e-mails de commit de agente ou a conta do próprio pipeline como autor. PRs de dependency-bot (cerca de 8% de todas as mesclagens) são excluídos do gráfico inteiramente — não são trabalho humano nem de agente de codificação. Auditamos os sinais de três maneiras independentes: metadados de PR para todos os 1.409 merges, trailers em nível de commit em mais de 5.000 commits, e uma passagem forense manual sobre cada PR de 2026 sem marcação. Três leituras importam:
O entusiasmo desaparece; a infraestrutura permanece. A era de 2025 foi adoção ad-hoc e pessoal — e oscilou exatamente como hábitos pessoais fazem: 44% um mês, mal 4% em novembro quando os usuários mais pesados pausaram. O harness mudou a forma da curva: dentro de um mês da chegada das camadas de risco, a participação medida saltou para 89%; com o pipeline completo atingiu 92% e permaneceu lá. Cada camada de regras aumentou a adoção mais do que o entusiasmo de qualquer indivíduo jamais fez. Os dois tons contam a mesma história dentro da participação do agente: a faixa clara é desenvolvedores emparelhando com o agente manualmente; a faixa escura — trabalho que executou o pipeline completo de problema para PR revisado — aparece apenas quando o harness chega, e em maio carrega a maioria do trabalho do agente.
Inspecionamos o restante, PR por PR. Para abril-junho de 2026, os PRs sem qualquer marcador se decompõem em: automação de dependency-bot, trabalho de agente cuja única atribuição sobreviveu em trailers de commit, e um resíduo de mudanças plausivamente escritas à mão — cerca de 11% de mesclagens não-automação. Então a sentença honesta é: ~89% das mesclagens de desenvolvimento real no último trimestre mostram envolvimento verificável do agente — e até isso é um piso, já que a assistência de IA em nível de editor não deixa rastro algum. Também enviamos auditores céticos nos três meses mais fracos, PR por PR: a contagem de novembro subiu de 1 para 3 comprovados (mais 3 suspeitos em estilo), a de janeiro caiu de 10 para 8 depois de capturar dois falsos positivos, e dezembro foi confirmado exatamente — com uma reviravolta: por volume de código, os oito PRs marcados de dezembro entregaram 39% das linhas inseridas daquele mês. O agente já estava escrevendo os grandes recursos; a contagem apenas não conseguia ver. A adoção também não é uniforme: alguns desenvolvedores executam perto de 100% com assistência de agente, alguns ainda escrevem principalmente à mão — o pipeline carrega uma participação crescente de qualquer maneira.
A qualidade não recuou. A mesma janela entregou mudanças de Camada 3 — integração de provedor de LLM, trabalho adjacente a pagamento, uma expansão i18n — sob gates que ficaram mais rigorosos no período, não mais frouxos. E quando medimos a consistência de revisão do agente diretamente, 21 de 22 agentes de revisão independentes chegaram ao mesmo veredicto no mesmo PR.
Então quem é o autor?
A melhor articulação de onde isso deixa o humano vem de uma tese de engenharia que estudou desenvolvimento orientado por harness em um projeto de grau de aviação:
Quando uma mudança chegou ao autor humano, os problemas de qualidade rotineiros já haviam sido resolvidos — a revisão do autor se concentrou em decisões arquiteturais e de nível de domínio. A mesclagem foi a decisão do autor. A autoria do código mesclado repousa com o autor humano, independentemente de qual ator produziu o rascunho inicial.
— Štefan Moravík, Design and Implementation of a Drone Mission Planning Module for Airport Lighting Inspection (tese, 2026)
Esse é o acordo em produção também: agentes fazem o rascunho e o trabalho de qualidade rotineiro; o humano faz arquitetura, julgamento de domínio e é proprietário da mesclagem.

