“La IA escribe la mayoría de nuestro código” suena como el lema de una startup. ¿Puede ser real para una aplicación empresarial — clientes en vivo, facturación en vivo, un monorepo donde una mala fusión cuesta dinero? En QualityUnit lo es. Aquí está el rastro de diez meses de evidencia, y las reglas que lo hacen funcionar.
TL;DR: En diez meses, el trabajo escrito por agentes pasó de los primeros PRs experimentales a 133 de 144 PRs de desarrollo fusionados en mayo (92%) — verificados por una auditoría forense de tres vías de los 1.409 PRs fusionados, hasta tráileres de commit e inspección manual de cada PR sin marcar de 2026. No sucedió por “dejar que la IA codifique”: sucedió agregando reglas — una configuración de arnés de nivel de riesgo, un pipeline de agentes por etapas con bucles de revisión acotados, rutas protegidas, y un humano controlando cada fusión. Las reglas son el producto. Y con un motor de contexto alimentando a los agentes, el mismo trabajo ahora cuesta aproximadamente 30% menos por tarea (medido aquí ).
Lo que realmente se necesita
No una herramienta. Un pipeline, un archivo de política, y una compuerta — ejecutados por harnext .
El pipeline: agentes por etapas, un humano
El arnés es harnext — el arnés de agente de codificación de código abierto e agnóstico del proveedor de QualityUnit. En nuestro monorepo de producción, cada problema que entra en el pipeline ejecuta la misma serie de etapas de agentes activadas por CI, su progreso rastreado a través de etiquetas que un humano puede leer de un vistazo:
Dos detalles importan más que el recuento de etapas. El bucle está acotado: los defectos encontrados en la revisión vuelven a la etapa de implementación un número limitado de veces — los agentes convergen o escalan a un humano, no se agitan. Nada comienza a ciegas: antes de escribir una línea, el agente implementador debe cargar las convenciones del proyecto y emitir un bloque de confirmación que los revisores puedan verificar.
El archivo de política
La otra mitad es una política legible por máquina: cada ruta en el repositorio clasificada en niveles de riesgo, cada nivel con compuertas exigibles. CI la lee; la política de fusión la lee; los agentes reciben instrucciones sobre ella. No es un consejo:
Las rutas protegidas — migraciones, pagos, autenticación — son archivos que ningún agente puede tocar. Los límites arquitectónicos se aplican, no se sugieren. Quita estas reglas y un agente de codificación es un generador muy rápido de pasivos con apariencia plausible.
Diez meses, un gráfico
El rastro de adopción, medido desde el repositorio mismo.
El gráfico cuenta, para cada mes, cuántos PRs de desarrollo fusionados llevan cualquier señal dura del agente — el pie de página del agente de codificación, las etiquetas del pipeline, la convención de nivel del arnés, tráileres de coautor de commit, correos de agentes, o la propia cuenta del pipeline como autor. Los PRs de dependency-bot (aproximadamente el 8% de todas las fusiones) se excluyen completamente del gráfico — no son ni trabajo humano ni de agente de codificación. Auditamos las señales de tres formas independientes: metadatos de PR para las 1.409 fusiones, tráileres a nivel de commit en más de 5.000 commits, y un paso forense manual sobre cada PR sin marcar de 2026. Tres lecturas importan:
El entusiasmo se desvanece; la infraestructura permanece. La era de 2025 fue adopción ad-hoc y personal — y osciló exactamente como los hábitos personales: 44% un mes, apenas 4% en noviembre cuando los usuarios más pesados pausaron. El arnés cambió la forma de la curva: dentro de un mes de la llegada de los niveles de riesgo, la cuota medida saltó al 89%; con el pipeline completo alcanzó el 92% y se mantuvo allí. Cada capa de reglas aumentó la adopción más que el entusiasmo de cualquier individuo jamás lo hizo. Las dos sombras cuentan la misma historia dentro de la cuota del agente: la banda clara es desarrolladores emparejándose con el agente a mano; la banda oscura — trabajo que ejecutó el pipeline completo de problema a PR revisado — aparece solo cuando el arnés llega, y en mayo lleva la mayoría del trabajo del agente.
Inspeccionamos el resto, PR por PR. Para abril–junio de 2026, los PRs sin marcador se descomponen en: automatización de dependency-bot, trabajo de agente cuya única atribución sobrevivió en tráileres de commit, y un residuo de cambios plausiblemente escritos a mano — aproximadamente 11% de fusiones que no son automatización. Así que la oración honesta es: ~89% de las fusiones de desarrollo real en el último trimestre muestran participación verificable del agente — e incluso eso es un piso, ya que la asistencia de IA a nivel de editor no deja rastro. También enviamos auditores escépticos en los tres meses más débiles, PR por PR: el recuento de noviembre subió de 1 a 3 probados (más 3 sospechosos en estilo), enero cayó de 10 a 8 después de atrapar dos falsos positivos, y diciembre fue confirmado exactamente — con un giro: por volumen de código, los ocho PRs marcados de diciembre entregaron 39% de las líneas insertadas de ese mes. El agente ya estaba escribiendo las características grandes; el recuento simplemente no podía verlo. La adopción tampoco es uniforme: algunos desarrolladores ejecutan casi 100% asistencia de agente, un par todavía mayormente escriben a mano — el pipeline lleva una cuota creciente de cualquier forma.
La calidad no retrocedió. La misma ventana entregó cambios de Tier-3 — integración de proveedor de LLM, trabajo adyacente a pagos, una expansión de i18n — bajo compuertas que se hicieron más estrictas durante el período, no más sueltas. Y cuando medimos la consistencia de revisión del agente directamente, 21 de 22 agentes de revisión independientes llegaron al mismo veredicto en el mismo PR.
Entonces, ¿quién es el autor?
La mejor articulación de dónde deja esto al humano viene de una tesis de ingeniería que estudió desarrollo impulsado por arnés en un proyecto de grado de aviación:
Para cuando un cambio llegó al autor humano, los problemas de calidad rutinarios habían sido resueltos — la revisión del autor se concentró en decisiones de nivel arquitectónico y de dominio. La fusión fue la decisión del autor. La autoría del código fusionado recae en el autor humano, independientemente de qué actor produjo el borrador inicial.
— Štefan Moravík, Design and Implementation of a Drone Mission Planning Module for Airport Lighting Inspection (tesis, 2026)
Ese es el trato en producción también: los agentes hacen el borrador y el trabajo de calidad rutinaria; el humano hace arquitectura, juicio de dominio, y posee la fusión.

