Os agentes de codificação realmente podem produzir software empresarial de qualidade de produção?

Sim — mas não sem supervisão. Em nosso monorepo de produção, 92% dos pull requests de desenvolvimento de maio de 2026 mostram envolvimento verificável do agente, entregues sob gates que ficaram mais rigorosos no mesmo período: camadas de risco, revisões obrigatórias, caminhos protegidos e um humano tomando cada decisão de mesclagem. As regras são o que transformam a velocidade do agente em qualidade de produção.

O que é um harness de agente?

Um harness de agente é a estrutura dentro da qual um agente de codificação trabalha: um arquivo de política legível por máquina (camadas de risco, caminhos protegidos, limites arquiteturais), um pipeline em estágios de agentes especializados (tag, triage, plan, implement, review), loops de correção limitados e carregamento de contexto obrigatório antes de qualquer código ser escrito. harnext é a implementação de código aberto e agnóstica de provedor da QualityUnit.

Quanto do seu código é realmente escrito por IA?

Medido a partir do repositório em si: 92% dos PRs de desenvolvimento mesclados em maio de 2026 carregam sinais de agente sólidos (rodapés de atribuição, rótulos de pipeline, trailers de commit ou a conta do próprio pipeline como autor). Cada número é um piso — a atribuição é rotineiramente removida — e uma auditoria manual de cada PR de 2026 sem marcação encontrou cerca de 11% das mesclagens de desenvolvimento que são plausivamente totalmente escritas à mão.

Os humanos ainda revisam o código?

Cada mudança mesclada passou por uma revisão humana e uma decisão de mesclagem humana. O trabalho do pipeline é resolver problemas de qualidade rotineiros antes de um humano olhar, para que a revisão humana se concentre em arquitetura e julgamento de domínio — não para remover o humano.

Como esses números de adoção foram verificados?

De três maneiras independentes: metadados de PR para todos os 1.409 PRs mesclados em dez meses, análise em nível de commit de 5.000+ commits para trailers de co-autor e e-mails de agente, e uma inspeção forense manual de cada PR de 2026 sem marcação. Então enviamos auditores céticos nos três meses mais fracos PR por PR — um número subiu, um desceu, um foi confirmado exatamente. Todas as correções são refletidas no gráfico publicado.

Automação de IA

Desenvolvendo uma Aplicação Empresarial Completa com o Agente de Codificação harnext

Dez meses, 1.409 PRs mesclados, três auditorias forenses: como um pipeline de agentes em estágios levou um código base empresarial de 12% para 92% de desenvolvimento envolvendo agentes — com regras, gates e um humano controlando cada mesclagem.

AI Agents Agentic Workflows Developer Productivity Engineering Culture

Experimente FlowHunt Leia o Estudo do Motor de Contexto

“IA escreve a maioria do nosso código” parece um slogan de startup. Pode ser real para uma aplicação empresarial — clientes ativos, faturamento ativo, um monorepo onde uma mesclagem ruim custa dinheiro? Na QualityUnit é. Aqui está o rastro de evidências de dez meses e as regras que fazem isso funcionar.

TL;DR: Em dez meses, o trabalho escrito por agentes evoluiu dos primeiros PRs experimentais para 133 de 144 PRs de desenvolvimento mesclados em maio (92%) — verificado por uma auditoria forense de três vias de todos os 1.409 PRs mesclados, descendo até trailers de commit e uma inspeção manual de cada PR de 2026 sem marcação. Não aconteceu por “deixar a IA codificar”: aconteceu adicionando regras — uma configuração de harness de camada de risco, um pipeline de agentes em estágios com loops de revisão limitados, caminhos protegidos e um humano controlando cada mesclagem. As regras são o produto. E com um motor de contexto alimentando os agentes, o mesmo trabalho agora custa ~30% menos por tarefa (medido aqui ).

O que realmente é necessário

Não uma ferramenta. Um pipeline, um arquivo de política e um gate — executado por harnext .

O pipeline: agentes em estágios, um humano

O harness é harnext — o harness de agente de codificação agnóstico de provedor e de código aberto da QualityUnit. Em nosso monorepo de produção, cada problema que entra no pipeline executa o mesmo conjunto de estágios de agentes acionados por CI, seu progresso rastreado através de rótulos que um humano pode ler de relance:

O pipeline de produção: tagger, triage, plan, implement, review com um loop de revisão-correção limitado, um agente de revisão de código independente, a mesclagem humana — mais doc-gardening mantendo documentos por pasta em sincronização após a mesclagem

Dois detalhes importam mais que a contagem de estágios. O loop é limitado: defeitos encontrados na revisão voltam ao estágio de implementação um número limitado de vezes — agentes convergem ou escalamam para um humano, eles não oscilam. Nada começa às cegas: antes de escrever uma linha, o agente implementador deve carregar as convenções do projeto e emitir um bloco de confirmação que revisores possam verificar.

O arquivo de política

A outra metade é uma política legível por máquina: cada caminho no repositório classificado em camadas de risco, cada camada com gates executáveis. CI lê; política de mesclagem lê; agentes são informados sobre isso. Não é um conselho:

O que uma mudança de alto risco deve passar: verificações obrigatórias, duas aprovações, agente de revisão obrigatório, sem auto-mesclagem, caminhos protegidos, limites de arquitetura, evidência de screenshot — e uma confirmação de contexto obrigatória

Caminhos protegidos — migrações, pagamentos, autenticação — são arquivos que nenhum agente pode tocar. Limites arquiteturais são impostos, não sugeridos. Remova essas regras e um agente de codificação é um gerador muito rápido de passivos com aparência plausível.

Dez meses, um gráfico

O rastro de adoção, medido a partir do repositório em si.

Pull requests de desenvolvimento mesclados por mês, julho de 2025 a junho de 2026 — azul-petróleo escuro executou o pipeline de agentes de ponta a ponta, azul-petróleo claro é um desenvolvedor emparelhando com o agente diretamente, cinza não está marcado. A porcentagem é o envolvimento total do agente, atingindo 92% em maio de 2026

O gráfico conta, para cada mês, quantos PRs de desenvolvimento mesclados carregam qualquer sinal de agente sólido — o rodapé do agente de codificação, os rótulos do pipeline, a convenção de camada do harness, trailers de co-autor de commit, e-mails de commit de agente ou a conta do próprio pipeline como autor. PRs de dependency-bot (cerca de 8% de todas as mesclagens) são excluídos do gráfico inteiramente — não são trabalho humano nem de agente de codificação. Auditamos os sinais de três maneiras independentes: metadados de PR para todos os 1.409 merges, trailers em nível de commit em mais de 5.000 commits, e uma passagem forense manual sobre cada PR de 2026 sem marcação. Três leituras importam:

O entusiasmo desaparece; a infraestrutura permanece. A era de 2025 foi adoção ad-hoc e pessoal — e oscilou exatamente como hábitos pessoais fazem: 44% um mês, mal 4% em novembro quando os usuários mais pesados pausaram. O harness mudou a forma da curva: dentro de um mês da chegada das camadas de risco, a participação medida saltou para 89%; com o pipeline completo atingiu 92% e permaneceu lá. Cada camada de regras aumentou a adoção mais do que o entusiasmo de qualquer indivíduo jamais fez. Os dois tons contam a mesma história dentro da participação do agente: a faixa clara é desenvolvedores emparelhando com o agente manualmente; a faixa escura — trabalho que executou o pipeline completo de problema para PR revisado — aparece apenas quando o harness chega, e em maio carrega a maioria do trabalho do agente.

Inspecionamos o restante, PR por PR. Para abril-junho de 2026, os PRs sem qualquer marcador se decompõem em: automação de dependency-bot, trabalho de agente cuja única atribuição sobreviveu em trailers de commit, e um resíduo de mudanças plausivamente escritas à mão — cerca de 11% de mesclagens não-automação. Então a sentença honesta é: ~89% das mesclagens de desenvolvimento real no último trimestre mostram envolvimento verificável do agente — e até isso é um piso, já que a assistência de IA em nível de editor não deixa rastro algum. Também enviamos auditores céticos nos três meses mais fracos, PR por PR: a contagem de novembro subiu de 1 para 3 comprovados (mais 3 suspeitos em estilo), a de janeiro caiu de 10 para 8 depois de capturar dois falsos positivos, e dezembro foi confirmado exatamente — com uma reviravolta: por volume de código, os oito PRs marcados de dezembro entregaram 39% das linhas inseridas daquele mês. O agente já estava escrevendo os grandes recursos; a contagem apenas não conseguia ver. A adoção também não é uniforme: alguns desenvolvedores executam perto de 100% com assistência de agente, alguns ainda escrevem principalmente à mão — o pipeline carrega uma participação crescente de qualquer maneira.

A qualidade não recuou. A mesma janela entregou mudanças de Camada 3 — integração de provedor de LLM, trabalho adjacente a pagamento, uma expansão i18n — sob gates que ficaram mais rigorosos no período, não mais frouxos. E quando medimos a consistência de revisão do agente diretamente, 21 de 22 agentes de revisão independentes chegaram ao mesmo veredicto no mesmo PR.

Então quem é o autor?

A melhor articulação de onde isso deixa o humano vem de uma tese de engenharia que estudou desenvolvimento orientado por harness em um projeto de grau de aviação:

Quando uma mudança chegou ao autor humano, os problemas de qualidade rotineiros já haviam sido resolvidos — a revisão do autor se concentrou em decisões arquiteturais e de nível de domínio. A mesclagem foi a decisão do autor. A autoria do código mesclado repousa com o autor humano, independentemente de qual ator produziu o rascunho inicial.

— Štefan Moravík, Design and Implementation of a Drone Mission Planning Module for Airport Lighting Inspection (tese, 2026)

Esse é o acordo em produção também: agentes fazem o rascunho e o trabalho de qualidade rotineiro; o humano faz arquitetura, julgamento de domínio e é proprietário da mesclagem.

Perguntas frequentes

: Sim — mas não sem supervisão. Em nosso monorepo de produção, 92% dos pull requests de desenvolvimento de maio de 2026 mostram envolvimento verificável do agente, entregues sob gates que ficaram mais rigorosos no mesmo período: camadas de risco, revisões obrigatórias, caminhos protegidos e um humano tomando cada decisão de mesclagem. As regras são o que transformam a velocidade do agente em qualidade de produção.
: Um harness de agente é a estrutura dentro da qual um agente de codificação trabalha: um arquivo de política legível por máquina (camadas de risco, caminhos protegidos, limites arquiteturais), um pipeline em estágios de agentes especializados (tag, triage, plan, implement, review), loops de correção limitados e carregamento de contexto obrigatório antes de qualquer código ser escrito. harnext é a implementação de código aberto e agnóstica de provedor da QualityUnit.
: Medido a partir do repositório em si: 92% dos PRs de desenvolvimento mesclados em maio de 2026 carregam sinais de agente sólidos (rodapés de atribuição, rótulos de pipeline, trailers de commit ou a conta do próprio pipeline como autor). Cada número é um piso — a atribuição é rotineiramente removida — e uma auditoria manual de cada PR de 2026 sem marcação encontrou cerca de 11% das mesclagens de desenvolvimento que são plausivamente totalmente escritas à mão.
: Cada mudança mesclada passou por uma revisão humana e uma decisão de mesclagem humana. O trabalho do pipeline é resolver problemas de qualidade rotineiros antes de um humano olhar, para que a revisão humana se concentre em arquitetura e julgamento de domínio — não para remover o humano.
: De três maneiras independentes: metadados de PR para todos os 1.409 PRs mesclados em dez meses, análise em nível de commit de 5.000+ commits para trailers de co-autor e e-mails de agente, e uma inspeção forense manual de cada PR de 2026 sem marcação. Então enviamos auditores céticos nos três meses mais fracos PR por PR — um número subiu, um desceu, um foi confirmado exatamente. Todas as correções são refletidas no gráfico publicado.

Štefan Moravík
Engenheiro de IA e Software

Traga um Pipeline de Agentes para Seu Time

FlowHunt ajuda times de engenharia a projetar pipelines de agentes, gates de camadas de risco e fluxos de trabalho de contexto que elevam a qualidade do código enquanto reduzem os custos de desenvolvimento.

Experimente FlowHunt Leia o Estudo do Motor de Contexto

Desenvolvendo uma Aplicação Empresarial Completa com o Agente de Codificação harnext

O que realmente é necessário

O pipeline: agentes em estágios, um humano

O arquivo de política

Dez meses, um gráfico

Então quem é o autor?

Perguntas frequentes

Traga um Pipeline de Agentes para Seu Time

Recursos

Serviços

Recursos

Empresa

Cookies Necessários

Cookies de Análise

Marketing Cookies

Functional Cookies

Desenvolvendo uma Aplicação Empresarial Completa com o Agente de Codificação harnext

O que realmente é necessário

O pipeline: agentes em estágios, um humano

O arquivo de política

Dez meses, um gráfico

Então quem é o autor?

Perguntas frequentes

Traga um Pipeline de Agentes para Seu Time

Configurações de Cookies

Cookies Necessários

Cookies de Análise

Marketing Cookies

Functional Cookies