코딩 에이전트가 정말 프로덕션 수준의 엔터프라이즈 소프트웨어를 만들 수 있을까요?

네 — 하지만 무인 상태로는 아닙니다. 우리의 프로덕션 모노레포에서 2026년 5월 개발 풀 리퀘스트의 92%는 검증 가능한 에이전트 관여를 보여주며, 같은 기간 더욱 엄격해진 게이트 아래에서 배포됩니다: 위험 등급, 필수 검토, 보호된 경로, 그리고 모든 병합 결정을 내리는 인간. 규칙이 에이전트의 속도를 프로덕션 품질로 바꾸는 것입니다.

에이전트 하네스란 무엇인가요?

에이전트 하네스는 코딩 에이전트가 작동하는 구조물입니다: 기계 판독 가능한 정책 파일(위험 등급, 보호된 경로, 아키텍처 경계), 특화된 에이전트의 단계적 파이프라인(태그, 분류, 계획, 구현, 검토), 제한된 수정 루프, 코드 작성 전 필수 컨텍스트 로딩. harnext는 QualityUnit의 오픈소스 제공자 무관 구현입니다.

실제로 AI가 작성한 코드는 얼마나 되나요?

저장소 자체에서 측정하면: 2026년 5월에 병합된 개발 PR의 92%는 하드 에이전트 신호(귀속 푸터, 파이프라인 라벨, 커밋 트레일러, 또는 파이프라인 자체 계정 저자)를 포함합니다. 모든 수치는 최소값입니다 — 귀속은 정기적으로 제거됩니다 — 그리고 2026년의 모든 표시되지 않은 PR의 수동 감사에서 약 11%의 개발 병합이 완전히 수작업으로 작성되었을 가능성이 있습니다.

인간이 여전히 코드를 검토하나요?

병합된 모든 변경 사항은 인간 검토와 인간 병합 결정을 통과했습니다. 파이프라인의 역할은 인간이 보기 전에 일상적인 품질 문제를 해결하는 것이므로, 인간 검토는 아키텍처와 도메인 판단에 집중합니다 — 인간을 제거하기 위함이 아닙니다.

이러한 채택 수치는 어떻게 검증되었나요?

3가지 독립적인 방법으로: 10개월에 걸친 모든 1,409개의 병합된 PR에 대한 PR 메타데이터, 5,000개 이상의 커밋에 대한 공동 저자 트레일러 및 에이전트 이메일 커밋 수준 분석, 그리고 2026년의 모든 표시되지 않은 PR의 수동 법의학 검사. 그런 다음 가장 약한 3개월에 회의적인 감사인을 PR별로 보냈습니다 — 한 수치는 올라가고, 한 수치는 내려가고, 한 수치는 정확히 확인되었습니다. 모든 수정 사항은 게시된 차트에 반영됩니다.

harnext 코딩 에이전트로 완전한 엔터프라이즈 애플리케이션 개발하기

10개월, 1,409개의 병합된 PR, 3건의 법의학 감사: 단계적 에이전트 파이프라인이 하나의 엔터프라이즈 코드베이스를 12%에서 92%의 에이전트 관여 개발로 어떻게 끌어올렸는가 — 규칙, 게이트, 그리고 모든 병합을 관장하는 인간과 함께.

AI Agents Agentic Workflows Developer Productivity Engineering Culture

FlowHunt 시작하기 컨텍스트 엔진 연구 읽기

“AI가 우리 코드 대부분을 작성한다"는 스타트업 슬로건처럼 들립니다. 엔터프라이즈 애플리케이션 — 실제 고객, 실제 청구, 나쁜 병합이 돈이 드는 모노레포에서 현실이 될 수 있을까요? QualityUnit에서는 그렇습니다. 여기 10개월의 증거 흔적과 그것을 작동하게 만드는 규칙들이 있습니다.

요약: 10개월 동안 에이전트 저작 작업은 첫 번째 실험적 PR에서 **2026년 5월에 병합된 144개의 개발 PR 중 133개(92%)**로 진행되었습니다 — 모든 1,409개의 병합된 PR에 대한 3가지 방식의 법의학 감사로 검증되었으며, 커밋 트레일러와 2026년의 모든 표시되지 않은 PR의 수동 검사까지 포함합니다. 이는 “AI가 코딩하도록 놔두기"로 일어나지 않았습니다: 규칙을 추가함으로써 일어났습니다 — 위험 등급 하네스 구성, 제한된 검토 루프가 있는 단계적 에이전트 파이프라인, 보호된 경로, 그리고 모든 병합을 관장하는 인간. 규칙이 제품입니다. 그리고 에이전트에 컨텍스트 엔진이 공급되면, 같은 작업의 비용이 이제 작업당 약 30% 감소합니다(여기서 측정됨 ).

실제로 필요한 것

도구가 아닙니다. 파이프라인, 정책 파일, 그리고 게이트 — harnext 로 실행됩니다.

파이프라인: 단계적 에이전트, 하나의 인간

하네스는 harnext 입니다 — QualityUnit의 오픈소스 제공자 무관 코딩 에이전트 하네스. 우리의 프로덕션 모노레포에서 파이프라인에 들어가는 모든 이슈는 동일한 CI 트리거 에이전트 단계의 시련을 거치며, 그 진행 상황은 인간이 한눈에 읽을 수 있는 라벨을 통해 추적됩니다:

프로덕션 파이프라인: 태거, 분류, 계획, 구현, 제한된 검토 수정 루프가 있는 검토, 독립적인 코드 검토 에이전트, 인간 병합 — 그리고 병합 후 폴더별 문서를 동기화 상태로 유지하는 문서 정원 가꾸기

단계 수보다 더 중요한 두 가지 세부 사항이 있습니다. 루프는 제한됩니다: 검토에서 발견된 결함은 구현 단계로 제한된 횟수만큼 돌아갑니다 — 에이전트는 수렴하거나 인간으로 에스컬레이션되며, 스래싱하지 않습니다. 아무것도 맹목적으로 시작하지 않습니다: 한 줄을 작성하기 전에 구현 에이전트는 프로젝트의 관례를 로드하고 검토자가 확인할 수 있는 확인 블록을 내보내야 합니다.

정책 파일

다른 절반은 기계 판독 가능한 정책입니다: 저장소의 모든 경로가 위험 등급으로 분류되며, 각 등급은 시행 가능한 게이트를 가집니다. CI가 읽고, 병합 정책이 읽으며, 에이전트가 그것에 대해 브리핑을 받습니다. 이것은 조언이 아닙니다:

고위험 변경이 통과해야 할 것: 필수 검사, 2개의 승인, 필수 검토 에이전트, 자가 병합 금지, 보호된 경로, 아키텍처 경계, 스크린샷 증거 — 그리고 필수 컨텍스트 확인

보호된 경로 — 마이그레이션, 결제, 인증 — 은 에이전트가 접근할 수 없는 파일입니다. 아키텍처 경계는 강제되며, 제안되지 않습니다. 이러한 규칙을 제거하면 코딩 에이전트는 그럴듯한 책임을 매우 빠르게 생성하는 도구입니다.

10개월, 하나의 차트

저장소 자체에서 측정한 채택 흔적입니다.

2025년 7월부터 2026년 6월까지 월별로 병합된 개발 풀 리퀘스트 — 짙은 청록색은 에이전트 파이프라인을 끝에서 끝까지 실행했고, 밝은 청록색은 개발자가 에이전트와 직접 페어링했으며, 회색은 표시되지 않았습니다. 백분율은 총 에이전트 관여이며 2026년 5월에 92%에 도달합니다

차트는 매월 병합된 개발 PR 중 몇 개가 어떤 하드 에이전트 신호를 포함하는지 계산합니다 — 코딩 에이전트의 푸터, 파이프라인의 라벨, 하네스 등급 관례, 커밋 공동 저자 트레일러, 에이전트 커밋 이메일, 또는 파이프라인 자체 계정 저자. Dependency-bot PR(모든 병합의 약 8%)은 차트에서 완전히 제외됩니다 — 인간도 코딩 에이전트 작업도 아닙니다. 우리는 신호를 3가지 독립적인 방법으로 감사했습니다: 모든 1,409개 병합에 대한 PR 메타데이터, 5,000개 이상의 커밋에 걸친 커밋 수준 트레일러, 그리고 2026년의 모든 표시되지 않은 PR에 대한 수동 법의학 통과. 3가지 판독값이 중요합니다:

열정은 사라지지만 인프라는 남습니다. 2025년 시대는 임시방편적이고 개인적인 채택이었습니다 — 그리고 개인 습관처럼 정확히 진동했습니다: 한 달에 44%, 가장 많은 사용자가 일시 중지했던 11월에는 거의 4%. 하네스는 곡선의 모양을 바꿨습니다: 위험 등급이 도착한 지 한 달 이내에 측정된 점유율은 89%로 뛰어올랐습니다; 완전한 파이프라인으로 92%에 도달했고 그대로 유지되었습니다. 규칙의 각 계층은 개인의 열정보다 채택을 더 많이 증가시켰습니다. 두 가지 음영은 에이전트 점유율 내에서 같은 이야기를 말합니다: 밝은 대역은 개발자가 에이전트와 손으로 페어링하는 것입니다; 어두운 대역 — 이슈에서 검토된 PR까지 완전한 파이프라인을 실행한 작업 — 은 하네스가 도착할 때만 나타나며 5월까지 에이전트 작업의 대부분을 차지합니다.

우리는 나머지를 PR별로 검사했습니다. 2026년 4월~6월의 경우, 어떤 마커도 없는 PR은 다음과 같이 분해됩니다: dependency-bot 자동화, 유일한 귀속이 커밋 트레일러에서 생존한 에이전트 작업, 그리고 그럴듯하게 수작업으로 작성된 변경 사항의 잔여 — 약 비자동화 병합의 11%. 따라서 정직한 문장은: 지난 분기의 실제 개발 병합의 약 89%가 검증 가능한 에이전트 관여를 보여줍니다 — 그리고 편집기 수준의 AI 지원이 흔적을 남기지 않으므로 그것도 최소값입니다. 우리는 또한 회의적인 감사인을 가장 약한 3개월에 PR별로 보냈습니다: 11월의 수치는 입증된 1에서 3으로 올라갔습니다(더하기 스타일에서 의심되는 3), 1월의 수치는 두 개의 거짓 양성을 포착한 후 10에서 8로 내려갔으며, 12월은 정확히 확인되었습니다 — 한 가지 반전과 함께: 코드 볼륨 기준으로 12월의 8개 표시된 PR은 **그 달의 삽입된 줄의 39%**를 제공했습니다. 에이전트는 이미 큰 기능을 작성하고 있었습니다; 수치가 그것을 볼 수 없었을 뿐입니다. 채택도 균일하지 않습니다: 일부 개발자는 거의 100% 에이전트 보조를 실행하고, 몇몇은 여전히 대부분 수작업으로 작성합니다 — 파이프라인은 어느 쪽이든 증가하는 점유율을 차지합니다.

품질이 뒤로 물러나지 않았습니다. 같은 창은 Tier-3 변경 사항을 배포했습니다 — LLM 제공자 통합, 결제 인접 작업, i18n 확장 — 느슨해지지 않고 더 엄격해진 게이트 아래에서. 그리고 우리가 에이전트 검토 일관성을 직접 측정했을 때, 22개의 독립적인 검토 에이전트 중 21개는 같은 PR에 대해 같은 결론에 도달했습니다 .

그럼 저자는 누구인가요?

이것이 인간을 남겨두는 곳에 대한 최고의 표현은 항공 등급 프로젝트에서 하네스 기반 개발을 연구한 엔지니어링 논문에서 나옵니다:

변경 사항이 인간 저자에게 도달했을 때까지 일상적인 품질 문제가 해결되었습니다 — 저자의 검토는 아키텍처 및 도메인 수준의 결정에 집중했습니다. 병합은 저자의 결정이었습니다. 병합된 코드의 저작권은 초기 초안을 생성한 행위자에 관계없이 인간 저자에게 있습니다.

— Štefan Moravík, Design and Implementation of a Drone Mission Planning Module for Airport Lighting Inspection (논문, 2026)

프로덕션에서도 같은 거래입니다: 에이전트는 초안 작성과 일상적인 품질 작업을 수행하고, 인간은 아키텍처, 도메인 판단, 그리고 병합을 소유합니다.

자주 묻는 질문

: 네 — 하지만 무인 상태로는 아닙니다. 우리의 프로덕션 모노레포에서 2026년 5월 개발 풀 리퀘스트의 92%는 검증 가능한 에이전트 관여를 보여주며, 같은 기간 더욱 엄격해진 게이트 아래에서 배포됩니다: 위험 등급, 필수 검토, 보호된 경로, 그리고 모든 병합 결정을 내리는 인간. 규칙이 에이전트의 속도를 프로덕션 품질로 바꾸는 것입니다.
: 에이전트 하네스는 코딩 에이전트가 작동하는 구조물입니다: 기계 판독 가능한 정책 파일(위험 등급, 보호된 경로, 아키텍처 경계), 특화된 에이전트의 단계적 파이프라인(태그, 분류, 계획, 구현, 검토), 제한된 수정 루프, 코드 작성 전 필수 컨텍스트 로딩. harnext는 QualityUnit의 오픈소스 제공자 무관 구현입니다.
: 저장소 자체에서 측정하면: 2026년 5월에 병합된 개발 PR의 92%는 하드 에이전트 신호(귀속 푸터, 파이프라인 라벨, 커밋 트레일러, 또는 파이프라인 자체 계정 저자)를 포함합니다. 모든 수치는 최소값입니다 — 귀속은 정기적으로 제거됩니다 — 그리고 2026년의 모든 표시되지 않은 PR의 수동 감사에서 약 11%의 개발 병합이 완전히 수작업으로 작성되었을 가능성이 있습니다.
: 병합된 모든 변경 사항은 인간 검토와 인간 병합 결정을 통과했습니다. 파이프라인의 역할은 인간이 보기 전에 일상적인 품질 문제를 해결하는 것이므로, 인간 검토는 아키텍처와 도메인 판단에 집중합니다 — 인간을 제거하기 위함이 아닙니다.
: 3가지 독립적인 방법으로: 10개월에 걸친 모든 1,409개의 병합된 PR에 대한 PR 메타데이터, 5,000개 이상의 커밋에 대한 공동 저자 트레일러 및 에이전트 이메일 커밋 수준 분석, 그리고 2026년의 모든 표시되지 않은 PR의 수동 법의학 검사. 그런 다음 가장 약한 3개월에 회의적인 감사인을 PR별로 보냈습니다 — 한 수치는 올라가고, 한 수치는 내려가고, 한 수치는 정확히 확인되었습니다. 모든 수정 사항은 게시된 차트에 반영됩니다.

팀에 에이전트 파이프라인 도입하기

FlowHunt는 엔지니어링 팀이 에이전트 파이프라인, 위험 등급 게이트, 컨텍스트 워크플로우를 설계하여 코드 품질을 높이면서 개발 비용을 절감할 수 있도록 도와줍니다.

FlowHunt 시작하기 컨텍스트 엔진 연구 읽기

harnext 코딩 에이전트로 완전한 엔터프라이즈 애플리케이션 개발하기