“AI가 우리 코드 대부분을 작성한다"는 스타트업 슬로건처럼 들립니다. 엔터프라이즈 애플리케이션 — 실제 고객, 실제 청구, 나쁜 병합이 돈이 드는 모노레포에서 현실이 될 수 있을까요? QualityUnit에서는 그렇습니다. 여기 10개월의 증거 흔적과 그것을 작동하게 만드는 규칙들이 있습니다.
요약: 10개월 동안 에이전트 저작 작업은 첫 번째 실험적 PR에서 **2026년 5월에 병합된 144개의 개발 PR 중 133개(92%)**로 진행되었습니다 — 모든 1,409개의 병합된 PR에 대한 3가지 방식의 법의학 감사로 검증되었으며, 커밋 트레일러와 2026년의 모든 표시되지 않은 PR의 수동 검사까지 포함합니다. 이는 “AI가 코딩하도록 놔두기"로 일어나지 않았습니다: 규칙을 추가함으로써 일어났습니다 — 위험 등급 하네스 구성, 제한된 검토 루프가 있는 단계적 에이전트 파이프라인, 보호된 경로, 그리고 모든 병합을 관장하는 인간. 규칙이 제품입니다. 그리고 에이전트에 컨텍스트 엔진이 공급되면, 같은 작업의 비용이 이제 작업당 약 30% 감소합니다(여기서 측정됨 ).
실제로 필요한 것
도구가 아닙니다. 파이프라인, 정책 파일, 그리고 게이트 — harnext 로 실행됩니다.
파이프라인: 단계적 에이전트, 하나의 인간
하네스는 harnext 입니다 — QualityUnit의 오픈소스 제공자 무관 코딩 에이전트 하네스. 우리의 프로덕션 모노레포에서 파이프라인에 들어가는 모든 이슈는 동일한 CI 트리거 에이전트 단계의 시련을 거치며, 그 진행 상황은 인간이 한눈에 읽을 수 있는 라벨을 통해 추적됩니다:
단계 수보다 더 중요한 두 가지 세부 사항이 있습니다. 루프는 제한됩니다: 검토에서 발견된 결함은 구현 단계로 제한된 횟수만큼 돌아갑니다 — 에이전트는 수렴하거나 인간으로 에스컬레이션되며, 스래싱하지 않습니다. 아무것도 맹목적으로 시작하지 않습니다: 한 줄을 작성하기 전에 구현 에이전트는 프로젝트의 관례를 로드하고 검토자가 확인할 수 있는 확인 블록을 내보내야 합니다.
정책 파일
다른 절반은 기계 판독 가능한 정책입니다: 저장소의 모든 경로가 위험 등급으로 분류되며, 각 등급은 시행 가능한 게이트를 가집니다. CI가 읽고, 병합 정책이 읽으며, 에이전트가 그것에 대해 브리핑을 받습니다. 이것은 조언이 아닙니다:
보호된 경로 — 마이그레이션, 결제, 인증 — 은 에이전트가 접근할 수 없는 파일입니다. 아키텍처 경계는 강제되며, 제안되지 않습니다. 이러한 규칙을 제거하면 코딩 에이전트는 그럴듯한 책임을 매우 빠르게 생성하는 도구입니다.
10개월, 하나의 차트
저장소 자체에서 측정한 채택 흔적입니다.
차트는 매월 병합된 개발 PR 중 몇 개가 어떤 하드 에이전트 신호를 포함하는지 계산합니다 — 코딩 에이전트의 푸터, 파이프라인의 라벨, 하네스 등급 관례, 커밋 공동 저자 트레일러, 에이전트 커밋 이메일, 또는 파이프라인 자체 계정 저자. Dependency-bot PR(모든 병합의 약 8%)은 차트에서 완전히 제외됩니다 — 인간도 코딩 에이전트 작업도 아닙니다. 우리는 신호를 3가지 독립적인 방법으로 감사했습니다: 모든 1,409개 병합에 대한 PR 메타데이터, 5,000개 이상의 커밋에 걸친 커밋 수준 트레일러, 그리고 2026년의 모든 표시되지 않은 PR에 대한 수동 법의학 통과. 3가지 판독값이 중요합니다:
열정은 사라지지만 인프라는 남습니다. 2025년 시대는 임시방편적이고 개인적인 채택이었습니다 — 그리고 개인 습관처럼 정확히 진동했습니다: 한 달에 44%, 가장 많은 사용자가 일시 중지했던 11월에는 거의 4%. 하네스는 곡선의 모양을 바꿨습니다: 위험 등급이 도착한 지 한 달 이내에 측정된 점유율은 89%로 뛰어올랐습니다; 완전한 파이프라인으로 92%에 도달했고 그대로 유지되었습니다. 규칙의 각 계층은 개인의 열정보다 채택을 더 많이 증가시켰습니다. 두 가지 음영은 에이전트 점유율 내에서 같은 이야기를 말합니다: 밝은 대역은 개발자가 에이전트와 손으로 페어링하는 것입니다; 어두운 대역 — 이슈에서 검토된 PR까지 완전한 파이프라인을 실행한 작업 — 은 하네스가 도착할 때만 나타나며 5월까지 에이전트 작업의 대부분을 차지합니다.
우리는 나머지를 PR별로 검사했습니다. 2026년 4월~6월의 경우, 어떤 마커도 없는 PR은 다음과 같이 분해됩니다: dependency-bot 자동화, 유일한 귀속이 커밋 트레일러에서 생존한 에이전트 작업, 그리고 그럴듯하게 수작업으로 작성된 변경 사항의 잔여 — 약 비자동화 병합의 11%. 따라서 정직한 문장은: 지난 분기의 실제 개발 병합의 약 89%가 검증 가능한 에이전트 관여를 보여줍니다 — 그리고 편집기 수준의 AI 지원이 흔적을 남기지 않으므로 그것도 최소값입니다. 우리는 또한 회의적인 감사인을 가장 약한 3개월에 PR별로 보냈습니다: 11월의 수치는 입증된 1에서 3으로 올라갔습니다(더하기 스타일에서 의심되는 3), 1월의 수치는 두 개의 거짓 양성을 포착한 후 10에서 8로 내려갔으며, 12월은 정확히 확인되었습니다 — 한 가지 반전과 함께: 코드 볼륨 기준으로 12월의 8개 표시된 PR은 **그 달의 삽입된 줄의 39%**를 제공했습니다. 에이전트는 이미 큰 기능을 작성하고 있었습니다; 수치가 그것을 볼 수 없었을 뿐입니다. 채택도 균일하지 않습니다: 일부 개발자는 거의 100% 에이전트 보조를 실행하고, 몇몇은 여전히 대부분 수작업으로 작성합니다 — 파이프라인은 어느 쪽이든 증가하는 점유율을 차지합니다.
품질이 뒤로 물러나지 않았습니다. 같은 창은 Tier-3 변경 사항을 배포했습니다 — LLM 제공자 통합, 결제 인접 작업, i18n 확장 — 느슨해지지 않고 더 엄격해진 게이트 아래에서. 그리고 우리가 에이전트 검토 일관성을 직접 측정했을 때, 22개의 독립적인 검토 에이전트 중 21개는 같은 PR에 대해 같은 결론에 도달했습니다 .
그럼 저자는 누구인가요?
이것이 인간을 남겨두는 곳에 대한 최고의 표현은 항공 등급 프로젝트에서 하네스 기반 개발을 연구한 엔지니어링 논문에서 나옵니다:
변경 사항이 인간 저자에게 도달했을 때까지 일상적인 품질 문제가 해결되었습니다 — 저자의 검토는 아키텍처 및 도메인 수준의 결정에 집중했습니다. 병합은 저자의 결정이었습니다. 병합된 코드의 저작권은 초기 초안을 생성한 행위자에 관계없이 인간 저자에게 있습니다.
— Štefan Moravík, Design and Implementation of a Drone Mission Planning Module for Airport Lighting Inspection (논문, 2026)
프로덕션에서도 같은 거래입니다: 에이전트는 초안 작성과 일상적인 품질 작업을 수행하고, 인간은 아키텍처, 도메인 판단, 그리고 병합을 소유합니다.

