Udvikling af en fuldt udbygget Enterprise-applikation med harnext-kodningsagenten

AI Agents Agentic Workflows Developer Productivity Engineering Culture

“AI skriver det meste af vores kode” lyder som en startup-slogan. Kan det være virkeligt for en enterprise-applikation — live-kunder, live-fakturering, en monorepo, hvor en dårlig fusion koster penge? Hos QualityUnit er det. Her er det ti-måneders bevis og de regler, der gør det muligt.

TL;DR: I ti måneder gik agent-forfattet arbejde fra de første eksperimentelle PR’er til 133 af 144 udviklings-PR’er fusioneret i maj (92%) — verificeret ved en tre-vejs retsmedicinsk revision af alle 1.409 fusionerede PR’er, ned til commit-trailere og en manuel inspektion af hver umarkeret 2026 PR. Det skete ikke ved at “lade AI’en kode”: det skete ved at tilføje regler — en risikotrin-harness-konfiguration, en trinvis agent-pipeline med afgrænsede review-løkker, beskyttede stier og en menneske, der holder hver fusion. Reglerne er produktet. Og med en kontekstmotor, der fodrer agenterne, koster det samme arbejde nu ~30% mindre pr. opgave (målt her ).

Hvad det faktisk tager

Ikke et værktøj. En pipeline, en politikfil og en port — drevet af harnext .

Pipeline’en: trinvis agenter, en menneske

Harnessen er harnext — QualityUnit’s open-source, leverandøragnostisk kodningsagent-harness. I vores produktionsmonorepo kører hvert problem, der kommer ind i pipelinen, gennem samme serie af CI-udløst agent-stadier, med dens fremskridt sporet gennem labels, som et menneske kan læse på et øjeblik:

Produktionspipelinen: tagger, triage, plan, implementer, review med en afgrænsede review-fix-løkke, en uafhængig kodegennemgangagent, menneskets fusion — plus doc-gardening, der holder dokumentation pr. mappe synkroniseret efter fusionen

To detaljer betyder mere end antallet af stadier. Løkken er afgrænset: defekter fundet i review går tilbage til implementeringsstadiet et begrænset antal gange — agenter konvergerer eller eskaleres til et menneske, de thrashes ikke. Intet starter blindt: før der skrives en linje, skal implementeringsagenten indlæse projektets konventioner og udsende en bekræftelsesblok, som reviewers kan kontrollere.

Politikfilen

Det andet halvdel er en maskinlæselig politik: hver sti i lageret klassificeret i risikotrin, hvert trin med håndhævelige porte. CI læser det; fusionspolitik læser det; agenter får instruktion om det. Det er ikke råd:

Hvad en høj-risiko ændring skal klare: påkrævede checks, to godkendelser, obligatorisk review-agent, ingen selv-fusion, beskyttede stier, arkitektoniske grænser, skærmbilledbevis — og obligatorisk kontekstbekræftelse

Beskyttede stier — migrationer, betalinger, auth — er filer, som ingen agent må røre. Arkitektoniske grænser håndhæves, ikke foreslået. Tag disse regler væk, og en kodningsagent er en meget hurtig generator af troværdigt udseende ansvar.

Ti måneder, et diagram

Adoptionsstien, målt fra selve lageret.

Udviklings-pull requests fusioneret pr. måned, juli 2025 til juni 2026 — mørk blågrøn kørte den fulde agent-pipeline end-to-end, lys blågrøn er en udvikler, der parrer sig med agenten direkte, grå er umarkeret. Procenten er samlet agent-involvering, der når 92% i maj 2026

Diagrammet tæller, for hver måned, hvor mange fusionerede udviklings-PR’er der bærer nogen hård agent-signal — kodningsagentens fodnote, pipelinens labels, harness-trin-konvention, commit co-author-trailere, agent-commit-e-mails eller pipelinens egen konto som forfatter. Dependency-bot PR’er (omkring 8% af alle fusioner) er helt udelukket fra diagrammet — de er hverken menneske eller kodningsagent-arbejde. Vi reviderede signalerne på tre uafhængige måder: PR-metadata for alle 1.409 fusioner, commit-niveau trailere på tværs af 5.000+ commits og en manuel retsmedicinsk gennemgang af hver eneste umarkeret PR fra 2026. Tre aflæsninger betyder noget:

**Entusiasme forsvinder; infrastruktur holder. ** 2025-æraen var ad-hoc, personlig adoption — og den oscillerede nøjagtigt som personlige vaner gør: 44% en måned, knap 4% i november, da de tungeste brugere pauserede. Harnessen ændrede kurvens form: inden for en måned efter at risikotrinene ankom, springede den målte andel til 89%; med den fulde pipeline nåede den 92% og blev der. Hvert lag af regler øgede adoptionen mere end nogen enkeltpersons entusiasme nogensinde gjorde. De to skygger fortæller samme historie inden for agent-andelen: det lyse bånd er udviklere, der parrer sig med agenten manuelt; det mørke bånd — arbejde, der kørte den fulde pipeline fra problem til gennemset PR — optræder kun, når harnessen lander, og i maj bærer det hovedparten af agent-arbejdet.

Vi inspicerede resten, PR for PR. For april–juni 2026 dekomponeres PR’erne uden nogen markør i: dependency-bot-automation, agent-arbejde, hvis eneste tilskrivning overlevede i commit-trailere, og en rest af plausibelt håndskrevne ændringer — omkring 11% af ikke-automation-fusioner. Så den ærlige sætning er: ~89% af rigtige udviklingsfusioner i sidste kvartal viser verificerbar agent-involvering — og selv det er et minimum, da editor-niveau AI-assistance efterlader intet spor. Vi sendte også skeptiske revisorer til de tre svageste måneder, PR for PR: november’s tal steg fra 1 til 3 bevist (plus 3 mistænkt på stil), januars faldt fra 10 til 8 efter at have fanget to falske positiver, og december blev bekræftet nøjagtigt — med en twist: efter kodemængde leverede decembers otte markerede PR’er 39% af den måneds indsatte linjer. Agenten skrev allerede de store features; tallet kunne bare ikke se det. Adoption er heller ikke ensartet: nogle udviklere kører tæt på 100% agent-assisteret, et par skriver stadig mest manuelt — pipelinen bærer en stigende andel begge veje.

Kvaliteten gik ikke bagud. Det samme vindue sendte Tier-3-ændringer — LLM-leverandør-integration, betalings-tilstødende arbejde, en i18n-udvidelse — under porte, der blev strengere over perioden, ikke løsere. Og da vi målte agent-review-konsistens direkte, 21 af 22 uafhængige review-agenter nåede samme konklusion på samme PR.

Så hvem er forfatteren?

Den bedste artikulering af, hvor dette efterlader mennesket, kommer fra en ingeniørthesis, der studerede harness-drevet udvikling på et luftfartsgradet projekt:

Da en ændring nåede menneskets forfatter, var rutineproblemer med kvalitet blevet løst — forfatterens review fokuserede på arkitektoniske og domæne-niveau beslutninger. Fusionen var forfatterens beslutning. Forfatterskabet af den fusionerede kode hviler hos menneskets forfatter, uanset hvilken aktør, der producerede det indledende udkast.

— Štefan Moravík, Design and Implementation of a Drone Mission Planning Module for Airport Lighting Inspection (thesis, 2026)

Det er handelen i produktion også: agenter foretager kladden og det rutineprægede kvalitetsarbejde; mennesket foretager arkitektur, domænebedømmelse og ejer fusionen.

Ofte stillede spørgsmål

Štefan er en AI- og softwareingeniør, der bygger FlowHunt. Ud over selve produktet designer han agentic software-engineering workflows for udviklere, der reducerer udviklingskostnaderne, mens kodekvaliteten forbedres.

Štefan Moravík
Štefan Moravík
AI- og softwareingeniør

Bring en Agent-pipeline til dit team

FlowHunt hjælper ingeniørteams med at designe agent-pipelines, risikotrin-porte og kontekstworkflows, der øger kodekvaliteten og reducerer udviklingspriserne.