Kunnen codeeringsagenten echt productiekwaliteit bedrijfssoftware produceren?

Ja — maar niet zonder toezicht. In onze productie-monorepo toont 92% van de pull requests van mei 2026 verifieerbare agentbetrokkenheid, verzonden onder poorten die in dezelfde periode strenger werden: risiconiveaus, verplichte beoordelingen, beschermde paden en een mens die elke merge-beslissing neemt. De regels zijn wat agentsnelheid in productiekwaliteit omzet.

Wat is een agent harness?

Een agent harness is de steiger waaraan een codeeringsagent werkt: een machine-leesbaar beleidsbestand (risiconiveaus, beschermde paden, architectuurgrenzen), een gefaseerde pijplijn van gespecialiseerde agenten (tag, triage, plan, implementatie, beoordeling), begrensd correctieloops en verplichte contextlading voordat code wordt geschreven. harnext is QualityUnit's open-source, provider-agnostische implementatie.

Hoeveel van uw code wordt daadwerkelijk door AI geschreven?

Gemeten vanuit de repository zelf: 92% van de samengevoegde ontwikkelings-PR's van mei 2026 dragen sterke agentsignalen (attributievoetteksten, pijplijnlabels, commit-trailers of de eigen account van de pijplijn als auteur). Elk getal is een ondergrens — attributie wordt routinematig verwijderd — en een handmatige audit van elke ongemarkeerde PR van 2026 vond ongeveer 11% van de ontwikkelings-merges waarschijnlijk volledig handgeschreven.

Beoordelen mensen de code nog steeds?

Elke samengevoegde wijziging doorstond een menselijke beoordeling en een menselijke merge-beslissing. De taak van de pijplijn is routinekwaliteitsproblemen op te lossen voordat een mens kijkt, zodat de menselijke beoordeling zich concentreert op architectuur en domeinbeslissing — niet om de mens te vervangen.

Hoe zijn deze adoptienagetallen geverifieerd?

Op drie onafhankelijke manieren: PR-metadata voor alle 1.409 samengevoegde PR's over tien maanden, commit-niveau-analyse van 5.000+ commits voor co-auteur-trailers en agente-mails, en een handmatige forensische inspectie van elke ongemarkeerde PR van 2026. We stuurden vervolgens skeptische auditors op de drie zwakste maanden PR voor PR — één getal ging omhoog, één ging omlaag, één werd exact bevestigd. Alle correcties worden weergegeven in de gepubliceerde grafiek.

Een volledige ondernemingstoepassing ontwikkelen met de harnext-codeeringsagent

Tien maanden, 1.409 samengevoegde PR’s, drie forensische audits: hoe een gefaseerde agentpijplijn één bedrijfscodebase van 12% naar 92% agentbetrokken ontwikkeling bracht — met regels, poorten en een mens die elke merge controleert.

AI Agents Agentic Workflows Developer Productivity Engineering Culture

Probeer FlowHunt Lees de Context Engine-studie

“AI schrijft het meeste van onze code” klinkt als een startup-slogan. Kan het echt voor een bedrijfstoepassing — live klanten, live facturering, een monorepo waar een slechte merge geld kost? Bij QualityUnit is dat het geval. Hier is het tien-maanden spoor van bewijs en de regels die het werkend maken.

TL;DR: In tien maanden groeide agentgeschreven werk van de eerste experimentele PR’s naar 133 van 144 samengevoegde ontwikkelings-PR’s in mei (92%) — geverifieerd door een driedubbele forensische audit van alle 1.409 samengevoegde PR’s, tot commit-trailers en een handmatige inspectie van elke ongemarkeerde PR van 2026. Het gebeurde niet door “de AI code te laten schrijven”: het gebeurde door regels toe te voegen — een risiconiveau-harness-config, een gefaseerde agentpijplijn met begrensd beoordelingsloops, beschermde paden en een mens die elke merge controleert. De regels zijn het product. En met een contextengine die de agenten voedt, kost hetzelfde werk nu ongeveer 30% minder per taak (gemeten hier ).

Wat het daadwerkelijk kost

Geen hulpmiddel. Een pijplijn, een beleidsbestand en een poort — beheerd door harnext .

De pijplijn: gefaseerde agenten, één mens

De harness is harnext — QualityUnit’s open-source, provider-agnostische codeeringsagent-harness. In onze productie-monorepo voert elk probleem dat de pijplijn binnenkomt dezelfde reeks CI-geactiveerde agentstadia uit, waarbij de voortgang wordt bijgehouden via labels die een mens in één oogopslag kan lezen:

De productiepijplijn: tagger, triage, plan, implementatie, beoordeling met een begrensd review-fix-loop, een onafhankelijke codebeoordeligingsagent, de menselijke merge — plus documenttuinonderhoud dat per-folder-docs na de merge synchroon houdt

Twee details zijn belangrijker dan het aantal stadia. Het loop is begrensd: gebreken die in de beoordeling worden gevonden, gaan terug naar het implementatiestadium een beperkt aantal keren — agenten convergeren of escaleren naar een mens, ze thrash niet. Niets begint blind: voordat een regel wordt geschreven, moet de implementatieagent de conventies van het project laden en een bevestigingsblok uitzenden dat beoordelaars kunnen controleren.

Het beleidsbestand

Het andere deel is een machine-leesbaar beleid: elk pad in de repo ingedeeld in risiconiveaus, elk niveau met afdwingbare poorten. CI leest het; merge-beleid leest het; agenten worden erover ingelicht. Het is geen advies:

Wat een wijziging met hoog risico moet doorstaan: vereiste controles, twee goedkeuringen, verplichte beoordelingsagent, geen zelf-merge, beschermde paden, architectuurgrenzen, screenshot-bewijs — en een verplichte contextbevestiging

Beschermde paden — migraties, betalingen, verificatie — zijn bestanden die geen agent mag aanraken. Architectuurgrenzen worden afgedwongen, niet gesuggereerd. Verwijder deze regels en een codeeringsagent is een zeer snelle generator van aannemelijke aansprakelijkheden.

Tien maanden, één grafiek

Het adoptiespoor, gemeten vanuit de repository zelf.

Samengevoegde pull requests voor ontwikkeling per maand, juli 2025 tot juni 2026 — donkergroenblauw voerde de volledige agentpijplijn van begin tot eind uit, lichtgroenblauw is een ontwikkelaar die direct met de agent samenwerkt, grijs is ongemarkeerd. Het percentage is totale agentbetrokkenheid, bereikt 92% in mei 2026

De grafiek telt voor elke maand hoeveel samengevoegde ontwikkelings-PR’s enig hard agentsignaal dragen — de voettekst van de codeeringsagent, de labels van de pijplijn, de harness-tierconventie, commit co-auteur-trailers, agent-commit-e-mails of de eigen account van de pijplijn als auteur. Dependency-bot-PR’s (ongeveer 8% van alle merges) zijn volledig uit de grafiek uitgesloten — ze zijn noch menselijk noch codeeringsagent-werk. We controleerden de signalen op drie onafhankelijke manieren: PR-metadata voor alle 1.409 merges, commit-niveau-trailers over 5.000+ commits en een handmatige forensische doorgang over elke ongemarkeerde PR van 2026. Drie aflezingen zijn belangrijk:

Enthousiasme vervaagt; infrastructuur blijft staan. Het 2025-tijdperk was ad-hoc, persoonlijke adoptie — en het oscilleerde precies zoals persoonlijke gewoonten doen: 44% één maand, nauwelijks 4% in november toen de zwaarste gebruikers pauzeerden. De harness veranderde de vorm van de curve: binnen een maand na aankomst van de risiconiveaus sprong het gemeten aandeel naar 89%; met de volledige pijplijn bereikte het 92% en bleef daar. Elke laag van regels verhoogde de adoptie meer dan het enthousiasme van enig individu ooit deed. De twee tinten vertellen hetzelfde verhaal binnen het agentaandeel: de lichtband is ontwikkelaars die direct met de agent samenwerken; de donkere band — werk dat de volledige pijplijn van probleem tot beoordeelde PR uitvoerde — verschijnt alleen wanneer de harness aankomt, en in mei draagt het het merendeel van het agentwerk.

We inspecteerden de rest, PR voor PR. Voor april–juni 2026 ontleden de PR’s zonder enig merkteken zich in: dependency-bot-automatisering, agentwerk waarvan alleen de attributie in commit-trailers overbleef, en een residu van waarschijnlijk handgeschreven wijzigingen — ongeveer 11% van niet-automatisering merges. De eerlijke zin is dus: ~89% van echte ontwikkelings-merges in het laatste kwartaal tonen verifieerbare agentbetrokkenheid — en zelfs dat is een ondergrens, aangezien AI-hulp op editorniveau geen spoor achterlaat. We stuurden ook skeptische auditors op de drie zwakste maanden, PR voor PR: november’s aantal steeg van 1 naar 3 bewezen (plus 3 vermoede op stijl), januari’s daalde van 10 naar 8 na het vangen van twee valse positieven, en december werd exact bevestigd — met één wending: per codegrootte, december’s acht gemarkeerde PR’s leverden 39% van die maand’s ingevoegde regels. De agent schreef al de grote functies; het aantal kon het gewoon niet zien. Adoptie is ook niet uniform: sommige ontwikkelaars voeren bijna 100% agentgestuurde werk uit, een paar schrijven nog steeds vooral handmatig — de pijplijn draagt toch een groeiend aandeel.

Kwaliteit ging niet achteruit. Hetzelfde venster verzond Tier-3-wijzigingen — LLM-providerintegratie, betaling-aangrenzend werk, een i18n-uitbreiding — onder poorten die in de periode strenger werden, niet losser. En toen we de consistentie van agentbeoordelingen direct maten, bereikten 21 van 22 onafhankelijke beoordelingagenten dezelfde conclusie op dezelfde PR.

Dus wie is de auteur?

De beste articulatie van waar dit de mens achterlaat, komt uit een engineeringthesis die harness-gestuurde ontwikkeling op een luchtvaartgraadproject bestudeerde:

Op het moment dat een wijziging de menselijke auteur bereikte, waren de routinekwaliteitsproblemen opgelost — de beoordeling van de auteur concentreerde zich op architectuur- en domeinniveaubeslissingen. De merge was de beslissing van de auteur. Het auteurschap van de samengevoegde code berust bij de menselijke auteur, ongeacht welke actor de eerste schets produceerde.

— Štefan Moravík, Design and Implementation of a Drone Mission Planning Module for Airport Lighting Inspection (thesis, 2026)

Dat is ook de deal in productie: agenten doen het conceptwerk en het routinekwaliteitswerk; de mens doet architectuur, domeinbeslissing en bezit de merge.

Veelgestelde vragen

: Ja — maar niet zonder toezicht. In onze productie-monorepo toont 92% van de pull requests van mei 2026 verifieerbare agentbetrokkenheid, verzonden onder poorten die in dezelfde periode strenger werden: risiconiveaus, verplichte beoordelingen, beschermde paden en een mens die elke merge-beslissing neemt. De regels zijn wat agentsnelheid in productiekwaliteit omzet.
: Een agent harness is de steiger waaraan een codeeringsagent werkt: een machine-leesbaar beleidsbestand (risiconiveaus, beschermde paden, architectuurgrenzen), een gefaseerde pijplijn van gespecialiseerde agenten (tag, triage, plan, implementatie, beoordeling), begrensd correctieloops en verplichte contextlading voordat code wordt geschreven. harnext is QualityUnit's open-source, provider-agnostische implementatie.
: Gemeten vanuit de repository zelf: 92% van de samengevoegde ontwikkelings-PR's van mei 2026 dragen sterke agentsignalen (attributievoetteksten, pijplijnlabels, commit-trailers of de eigen account van de pijplijn als auteur). Elk getal is een ondergrens — attributie wordt routinematig verwijderd — en een handmatige audit van elke ongemarkeerde PR van 2026 vond ongeveer 11% van de ontwikkelings-merges waarschijnlijk volledig handgeschreven.
: Elke samengevoegde wijziging doorstond een menselijke beoordeling en een menselijke merge-beslissing. De taak van de pijplijn is routinekwaliteitsproblemen op te lossen voordat een mens kijkt, zodat de menselijke beoordeling zich concentreert op architectuur en domeinbeslissing — niet om de mens te vervangen.
: Op drie onafhankelijke manieren: PR-metadata voor alle 1.409 samengevoegde PR's over tien maanden, commit-niveau-analyse van 5.000+ commits voor co-auteur-trailers en agente-mails, en een handmatige forensische inspectie van elke ongemarkeerde PR van 2026. We stuurden vervolgens skeptische auditors op de drie zwakste maanden PR voor PR — één getal ging omhoog, één ging omlaag, één werd exact bevestigd. Alle correcties worden weergegeven in de gepubliceerde grafiek.

Breng een agentpijplijn naar uw team

FlowHunt helpt engineeringteams agentpijplijnen, risiconiveaupoorten en contextworkflows te ontwerpen die de codekwaliteit verhogen en ontwikkelingkosten verlagen.

Probeer FlowHunt Lees de Context Engine-studie

Een volledige ondernemingstoepassing ontwikkelen met de harnext-codeeringsagent

Wat het daadwerkelijk kost

De pijplijn: gefaseerde agenten, één mens

Het beleidsbestand

Tien maanden, één grafiek

Dus wie is de auteur?

Veelgestelde vragen

Breng een agentpijplijn naar uw team

Functies

Diensten

Hulpbronnen

Bedrijf

Noodzakelijke Cookies

Analytics Cookies

Marketing Cookies

Functional Cookies

Een volledige ondernemingstoepassing ontwikkelen met de harnext-codeeringsagent

Wat het daadwerkelijk kost

De pijplijn: gefaseerde agenten, één mens

Het beleidsbestand

Tien maanden, één grafiek

Dus wie is de auteur?

Veelgestelde vragen

Breng een agentpijplijn naar uw team

Cookie Instellingen

Noodzakelijke Cookies

Analytics Cookies

Marketing Cookies

Functional Cookies