Phát triển Ứng dụng Doanh nghiệp Toàn diện với Agent Mã hóa harnext

AI Agents Agentic Workflows Developer Productivity Engineering Culture

“AI viết hầu hết mã của chúng tôi” nghe như một slogan khởi động. Nó có thể là thực tế đối với một ứng dụng doanh nghiệp — khách hàng trực tiếp, thanh toán trực tiếp, một monorepo nơi một lần hợp nhất tồi tệ có chi phí tiền? Tại QualityUnit nó là. Đây là dấu vết bằng chứng mười tháng, và các quy tắc làm cho nó hoạt động.

TL;DR: Trong mười tháng, công việc được tác giả bởi agent đã đi từ các PR thử nghiệm đầu tiên đến 133 của 144 PR phát triển được hợp nhất vào tháng 5 (92%) — được xác minh bởi một cuộc kiểm toán pháp y ba chiều của tất cả 1.409 PR được hợp nhất, xuống đến trailer cam kết và kiểm tra thủ công của mỗi PR không được đánh dấu năm 2026. Nó không xảy ra bằng cách “để AI mã hóa”: nó xảy ra bằng cách thêm các quy tắc — một config harness risk-tier, một pipeline agent được giai đoạn hóa với các vòng lặp đánh giá bị giới hạn, các đường dẫn được bảo vệ, và một con người giữ mỗi lần hợp nhất. Các quy tắc là sản phẩm. Và với một context engine cung cấp cho các agent, công việc tương tự bây giờ có chi phí ~30% ít hơn trên mỗi tác vụ (được đo ở đây ).

Điều đó thực sự cần thiết

Không phải một công cụ. Một pipeline, một tệp chính sách, và một cổng — được điều hành bởi harnext .

Pipeline: các agent được giai đoạn hóa, một con người

Harness là harnext — QualityUnit’s mã nguồn mở, harness agent mã hóa không phụ thuộc vào nhà cung cấp. Trong monorepo sản xuất của chúng tôi, mỗi vấn đề nhập pipeline chạy cùng một gauntlet các giai đoạn agent được kích hoạt bởi CI, tiến trình của nó được theo dõi thông qua các nhãn mà một con người có thể đọc ngay:

Pipeline sản xuất: tagger, triage, plan, implement, review với một vòng lặp đánh giá-sửa chữa bị giới hạn, một agent đánh giá mã độc lập, lần hợp nhất của con người — cộng với doc-gardening giữ các tài liệu theo thư mục đồng bộ sau lần hợp nhất

Hai chi tiết quan trọng hơn số lượng giai đoạn. Vòng lặp bị giới hạn: các khiếm khuyết được tìm thấy trong đánh giá quay trở lại giai đoạn triển khai một số lần hạn chế — các agent hội tụ hoặc leo thang đến một con người, họ không thrash. Không có gì bắt đầu mù quáng: trước khi viết một dòng, agent triển khai phải tải các quy ước của dự án và phát ra một khối xác nhận mà những người đánh giá có thể kiểm tra.

Tệp chính sách

Nửa kia là một chính sách có thể đọc bằng máy: mỗi đường dẫn trong repo được phân loại thành risk tiers, mỗi tier với các cổng có thể thực thi được. CI đọc nó; chính sách hợp nhất đọc nó; các agent được thông báo về nó. Nó không phải lời khuyên:

Những gì một thay đổi rủi ro cao phải xóa: kiểm tra bắt buộc, hai phê duyệt, agent đánh giá bắt buộc, không tự hợp nhất, các đường dẫn được bảo vệ, ranh giới kiến ​​trúc, bằng chứng ảnh chụp màn hình — và xác nhận ngữ cảnh bắt buộc

Các đường dẫn được bảo vệ — migration, thanh toán, xác thực — là các tệp mà không có agent nào có thể chạm vào. Ranh giới kiến ​​trúc được thực thi, không được gợi ý. Lấy những quy tắc này đi và một agent mã hóa là một máy tạo rất nhanh các chỉ tiêu trông hợp lý.

Mười tháng, một biểu đồ

Dấu vết áp dụng, được đo từ chính kho lưu trữ.

Pull request phát triển được hợp nhất mỗi tháng, tháng 7 năm 2025 đến tháng 6 năm 2026 — xanh lá cây tối chạy pipeline agent đầy đủ từ đầu đến cuối, xanh lá cây nhạt là một nhà phát triển ghép với agent trực tiếp, xám không được đánh dấu. Tỷ lệ phần trăm là tổng sự tham gia của agent, đạt 92% vào tháng 5 năm 2026

Biểu đồ đếm, cho mỗi tháng, có bao nhiêu PR phát triển development được hợp nhất mang any tín hiệu agent cứng — chân trang của agent mã hóa, nhãn của pipeline, quy ước tier harness, trailer đồng tác giả cam kết, email cam kết agent, hoặc tài khoản riêng của pipeline làm tác giả. Dependency-bot PRs (khoảng 8% của tất cả các lần hợp nhất) được loại trừ khỏi biểu đồ hoàn toàn — chúng không phải là công việc của con người hay agent mã hóa. Chúng tôi kiểm toán các tín hiệu theo ba cách độc lập: siêu dữ liệu PR cho tất cả 1.409 lần hợp nhất, trailer cấp cam kết trên 5.000+ cam kết, và một vòng pháp y thủ công trên mỗi PR không được đánh dấu duy nhất của năm 2026. Ba bài đọc quan trọng:

**Nhiệt tình phai; cơ sở hạ tầng dính. ** Era 2025 là ad-hoc, áp dụng cá nhân — và nó dao động chính xác giống như thói quen cá nhân: 44% một tháng, hầu như không có 4% vào tháng 11 khi những người dùng nặng nhất tạm dừng. Harness đã thay đổi hình dạng của đường cong: trong một tháng kể từ khi risk tiers đến, phần được đo đã nhảy đến 89%; với pipeline đầy đủ nó đạt 92% và ở lại đó. Mỗi lớp rules tăng áp dụng nhiều hơn bất kỳ sự nhiệt tình của cá nhân nào từng làm. Hai bóng mờ kể cùng một câu chuyện bên trong phần chia sẻ agent: dải nhạt là các nhà phát triển ghép với agent bằng tay; dải tối — công việc chạy full pipeline từ vấn đề để xem xét PR — chỉ xuất hiện khi harness đáp xuống, và vào tháng 5 nó mang phần lớn công việc agent.

Chúng tôi kiểm tra phần còn lại, PR theo PR. Đối với tháng 4 – 6 năm 2026, các PR không có bất kỳ điểm đánh dấu nào phân rã thành: tự động dependency-bot, công việc agent có quy thuộc duy nhất sống sót trong trailer cam kết, và phần dư của các thay đổi có thể được viết bằng tay — khoảng 11% của các lần hợp nhất không phải tự động. Vì vậy, câu chân thực là: ~89% của các lần hợp nhất phát triển thực tế trong quý cuối cùng cho thấy sự tham gia agent có thể xác minh được — và thậm chí điều đó là một sàn, vì hỗ trợ AI cấp trình soạn thảo không để lại dấu vết. Chúng tôi cũng gửi các kiểm toán hoài nghi tại ba tháng yếu nhất, PR theo PR: số lượng tháng 11 tăng từ 1 đến 3 được chứng minh (cộng với 3 nghi ngờ về phong cách), tháng 1 giảm từ 10 xuống 8 sau khi bắt hai dương tính giả, và tháng 12 được xác nhận chính xác — với một bước ngoặt: theo khối lượng mã, tám PR được đánh dấu của tháng 12 cung cấp 39% của các dòng được chèn vào tháng đó. Agent đã viết các tính năng lớn; số lượng chỉ không thể nhìn thấy nó. Áp dụng cũng không đồng nhất: một số nhà phát triển chạy gần 100% hỗ trợ agent, một cặp vẫn chủ yếu viết bằng tay — pipeline mang một phần chia sẻ ngày càng tăng dù sao.

Chất lượng không chuyển sang phía sau. Cửa sổ tương tự vận chuyển các thay đổi Tier-3 — tích hợp nhà cung cấp LLM, công việc liền kề thanh toán, mở rộng i18n — theo các cổng trở nên nghiêm ngặt hơn trong khoảng thời gian, không lỏng lẻo hơn. Và khi chúng tôi đo tính nhất quán của đánh giá agent trực tiếp, 21 của 22 agent đánh giá độc lập đạt cùng một phán quyết trên PR tương tự.

Vậy ai là tác giả?

Sự bày tỏ tốt nhất về nơi này để lại con người đến từ một luận văn kỹ thuật đã nghiên cứu phát triển được điều khiển bởi harness trên một dự án cấp hàng không:

Khi một thay đổi đến tác giả của con người, các vấn đề chất lượng thường xuyên đã được giải quyết — đánh giá của tác giả tập trung vào các quyết định cấp độ kiến ​​trúc và miền. Lần hợp nhất là quyết định của tác giả. Quyền tác giả của mã được hợp nhất nằm với tác giả của con người, bất kể diễn viên nào tạo ra bản nháp ban đầu.

— Štefan Moravík, Design and Implementation of a Drone Mission Planning Module for Airport Lighting Inspection (thesis, 2026)

Đó là thỏa thuận trong sản xuất quá: agent làm công việc soạn thảo và công việc chất lượng thường xuyên; con người làm kiến ​​trúc, phán đoán miền, và sở hữu lần hợp nhất.

Câu hỏi thường gặp

Štefan là một kỹ sư AI và phần mềm đang xây dựng FlowHunt. Ngoài sản phẩm itself, anh thiết kế các quy trình kỹ thuật phần mềm agentic cho các nhà phát triển giúp giảm chi phí phát triển đồng thời nâng cao chất lượng mã.

Štefan Moravík
Štefan Moravík
Kỹ sư AI & Phần mềm

Đưa Pipeline Agent đến Nhóm của Bạn

FlowHunt giúp các nhóm kỹ thuật thiết kế pipeline agent, cổng risk-tier, và quy trình ngữ cảnh nâng cao chất lượng mã trong khi giảm chi phí phát triển.