Automação de IA

Desenvolvendo uma Aplicação Empresarial Completa com o Agente de Codificação harnext

AI Agents Agentic Workflows Developer Productivity Engineering Culture

“IA escreve a maioria do nosso código” parece um slogan de startup. Pode ser real para uma aplicação empresarial — clientes ativos, faturamento ativo, um monorepo onde uma mesclagem ruim custa dinheiro? Na QualityUnit é. Aqui está o rastro de evidências de dez meses e as regras que fazem isso funcionar.

TL;DR: Em dez meses, o trabalho escrito por agentes evoluiu dos primeiros PRs experimentais para 133 de 144 PRs de desenvolvimento mesclados em maio (92%) — verificado por uma auditoria forense de três vias de todos os 1.409 PRs mesclados, descendo até trailers de commit e uma inspeção manual de cada PR de 2026 sem marcação. Não aconteceu por “deixar a IA codificar”: aconteceu adicionando regras — uma configuração de harness de camada de risco, um pipeline de agentes em estágios com loops de revisão limitados, caminhos protegidos e um humano controlando cada mesclagem. As regras são o produto. E com um motor de contexto alimentando os agentes, o mesmo trabalho agora custa ~30% menos por tarefa (medido aqui ).

O que realmente é necessário

Não uma ferramenta. Um pipeline, um arquivo de política e um gate — executado por harnext .

O pipeline: agentes em estágios, um humano

O harness é harnext — o harness de agente de codificação agnóstico de provedor e de código aberto da QualityUnit. Em nosso monorepo de produção, cada problema que entra no pipeline executa o mesmo conjunto de estágios de agentes acionados por CI, seu progresso rastreado através de rótulos que um humano pode ler de relance:

O pipeline de produção: tagger, triage, plan, implement, review com um loop de revisão-correção limitado, um agente de revisão de código independente, a mesclagem humana — mais doc-gardening mantendo documentos por pasta em sincronização após a mesclagem

Dois detalhes importam mais que a contagem de estágios. O loop é limitado: defeitos encontrados na revisão voltam ao estágio de implementação um número limitado de vezes — agentes convergem ou escalamam para um humano, eles não oscilam. Nada começa às cegas: antes de escrever uma linha, o agente implementador deve carregar as convenções do projeto e emitir um bloco de confirmação que revisores possam verificar.

O arquivo de política

A outra metade é uma política legível por máquina: cada caminho no repositório classificado em camadas de risco, cada camada com gates executáveis. CI lê; política de mesclagem lê; agentes são informados sobre isso. Não é um conselho:

O que uma mudança de alto risco deve passar: verificações obrigatórias, duas aprovações, agente de revisão obrigatório, sem auto-mesclagem, caminhos protegidos, limites de arquitetura, evidência de screenshot — e uma confirmação de contexto obrigatória

Caminhos protegidos — migrações, pagamentos, autenticação — são arquivos que nenhum agente pode tocar. Limites arquiteturais são impostos, não sugeridos. Remova essas regras e um agente de codificação é um gerador muito rápido de passivos com aparência plausível.

Dez meses, um gráfico

O rastro de adoção, medido a partir do repositório em si.

Pull requests de desenvolvimento mesclados por mês, julho de 2025 a junho de 2026 — azul-petróleo escuro executou o pipeline de agentes de ponta a ponta, azul-petróleo claro é um desenvolvedor emparelhando com o agente diretamente, cinza não está marcado. A porcentagem é o envolvimento total do agente, atingindo 92% em maio de 2026

O gráfico conta, para cada mês, quantos PRs de desenvolvimento mesclados carregam qualquer sinal de agente sólido — o rodapé do agente de codificação, os rótulos do pipeline, a convenção de camada do harness, trailers de co-autor de commit, e-mails de commit de agente ou a conta do próprio pipeline como autor. PRs de dependency-bot (cerca de 8% de todas as mesclagens) são excluídos do gráfico inteiramente — não são trabalho humano nem de agente de codificação. Auditamos os sinais de três maneiras independentes: metadados de PR para todos os 1.409 merges, trailers em nível de commit em mais de 5.000 commits, e uma passagem forense manual sobre cada PR de 2026 sem marcação. Três leituras importam:

O entusiasmo desaparece; a infraestrutura permanece. A era de 2025 foi adoção ad-hoc e pessoal — e oscilou exatamente como hábitos pessoais fazem: 44% um mês, mal 4% em novembro quando os usuários mais pesados pausaram. O harness mudou a forma da curva: dentro de um mês da chegada das camadas de risco, a participação medida saltou para 89%; com o pipeline completo atingiu 92% e permaneceu lá. Cada camada de regras aumentou a adoção mais do que o entusiasmo de qualquer indivíduo jamais fez. Os dois tons contam a mesma história dentro da participação do agente: a faixa clara é desenvolvedores emparelhando com o agente manualmente; a faixa escura — trabalho que executou o pipeline completo de problema para PR revisado — aparece apenas quando o harness chega, e em maio carrega a maioria do trabalho do agente.

Inspecionamos o restante, PR por PR. Para abril-junho de 2026, os PRs sem qualquer marcador se decompõem em: automação de dependency-bot, trabalho de agente cuja única atribuição sobreviveu em trailers de commit, e um resíduo de mudanças plausivamente escritas à mão — cerca de 11% de mesclagens não-automação. Então a sentença honesta é: ~89% das mesclagens de desenvolvimento real no último trimestre mostram envolvimento verificável do agente — e até isso é um piso, já que a assistência de IA em nível de editor não deixa rastro algum. Também enviamos auditores céticos nos três meses mais fracos, PR por PR: a contagem de novembro subiu de 1 para 3 comprovados (mais 3 suspeitos em estilo), a de janeiro caiu de 10 para 8 depois de capturar dois falsos positivos, e dezembro foi confirmado exatamente — com uma reviravolta: por volume de código, os oito PRs marcados de dezembro entregaram 39% das linhas inseridas daquele mês. O agente já estava escrevendo os grandes recursos; a contagem apenas não conseguia ver. A adoção também não é uniforme: alguns desenvolvedores executam perto de 100% com assistência de agente, alguns ainda escrevem principalmente à mão — o pipeline carrega uma participação crescente de qualquer maneira.

A qualidade não recuou. A mesma janela entregou mudanças de Camada 3 — integração de provedor de LLM, trabalho adjacente a pagamento, uma expansão i18n — sob gates que ficaram mais rigorosos no período, não mais frouxos. E quando medimos a consistência de revisão do agente diretamente, 21 de 22 agentes de revisão independentes chegaram ao mesmo veredicto no mesmo PR.

Então quem é o autor?

A melhor articulação de onde isso deixa o humano vem de uma tese de engenharia que estudou desenvolvimento orientado por harness em um projeto de grau de aviação:

Quando uma mudança chegou ao autor humano, os problemas de qualidade rotineiros já haviam sido resolvidos — a revisão do autor se concentrou em decisões arquiteturais e de nível de domínio. A mesclagem foi a decisão do autor. A autoria do código mesclado repousa com o autor humano, independentemente de qual ator produziu o rascunho inicial.

— Štefan Moravík, Design and Implementation of a Drone Mission Planning Module for Airport Lighting Inspection (tese, 2026)

Esse é o acordo em produção também: agentes fazem o rascunho e o trabalho de qualidade rotineiro; o humano faz arquitetura, julgamento de domínio e é proprietário da mesclagem.

Perguntas frequentes

Štefan é um engenheiro de IA e software que está desenvolvendo FlowHunt. Além do próprio produto, ele projeta fluxos de trabalho de engenharia de software agênticos para desenvolvedores que reduzem custos de desenvolvimento e aumentam a qualidade do código.

Štefan Moravík
Štefan Moravík
Engenheiro de IA e Software

Traga um Pipeline de Agentes para Seu Time

FlowHunt ajuda times de engenharia a projetar pipelines de agentes, gates de camadas de risco e fluxos de trabalho de contexto que elevam a qualidade do código enquanto reduzem os custos de desenvolvimento.