Fine-Tuning Gemma 4 trên Apple Silicon: Có thể thay thế Claude Sonnet để tạo nội dung không?

AI LLM Fine-Tuning Gemma

Chúng tôi chạy một nền tảng dữ liệu thể thao xuất bản các báo cáo trận đấu và tóm tắt vòng giải đấu trên chín môn thể thao. Mỗi bài viết đã được tạo thông qua các lệnh gọi API tới Claude Sonnet — đáng tin cậy, chất lượng cao, nhưng tốn kém khi mở rộng. Chúng tôi muốn biết: một mô hình nguồn mở, được tinh chỉnh trên dữ liệu của chúng tôi, có thể tạo ra các bài viết có chất lượng tương đương trong khi chạy hoàn toàn trên phần cứng cục bộ không?

Bài đăng này hướng dẫn qua toàn bộ thử nghiệm — từ chuẩn bị dữ liệu đến tinh chỉnh LoRA đến so sánh trực tiếp — sử dụng mô hình Gemma 4 31B của Google, khung MLX của Apple và MacBook Pro M3 Max với bộ nhớ thống nhất 96GB. Chúng tôi cũng phân tích kinh tế thế giới thực: khi nào việc huấn luyện mô hình tùy chỉnh thực sự tiết kiệm tiền so với lệnh gọi API?

Gemma 4 là gì?

Gemma 4 là họ mô hình ngôn ngữ lớn có trọng số mở của Google, được phát hành vào năm 2025 như một người kế nhiệm của loạt Gemma 2. Từ khóa là open-weight — không giống như các mô hình độc quyền như GPT-4 hoặc Claude, các trọng số của Gemma 4 có sẵn miễn phí để tải xuống, tinh chỉnh và triển khai mà không cần phí API liên tục.

Mô hình có một số kích thước. Chúng tôi đã sử dụng biến thể điều chỉnh hướng dẫn tham số 31B (google/gemma-4-31B-it), nằm ở vị trí tốt giữa khả năng và yêu cầu phần cứng. Với độ chính xác fp16 đầy đủ, nó cần khoảng 62GB bộ nhớ; với lượng tử hóa 4 bit, nó nén xuống khoảng 16GB, đủ nhỏ để chạy trên máy tính xách tay có 32GB RAM.

Những gì làm cho Gemma 4 đặc biệt thú vị cho trường hợp sử dụng của chúng tôi:

  • Không có chi phí API — một khi tải xuống, suy luận miễn phí (trừ điện)
  • Có thể tinh chỉnh — các bộ điều hợp LoRA cho phép bạn chuyên môn hóa mô hình trên miền của bạn với tính toán tối thiểu
  • Chạy trên phần cứng tiêu dùng — kiến trúc bộ nhớ thống nhất của Apple Silicon làm cho nó có thể huấn luyện và chạy mô hình 31B trên MacBook Pro
  • Giấy phép thân thiện với thương mại — các điều khoản của Gemma cho phép sử dụng thương mại, làm cho nó khả thi cho các khối lượng công việc sản xuất

Sự đánh đổi rõ ràng: bạn từ bỏ sự tiện lợi của lệnh gọi API cắm và chơi để đổi lấy kiểm soát, quyền riêng tư và chi phí biên giới thấp hơn đáng kể khi mở rộng.

Vấn đề

Nền tảng của chúng tôi tạo ra hàng trăm bài viết mỗi ngày trên bóng đá, bóng rổ, khúc côn cầu, NFL, bóng chày, bóng bầu dục, bóng chuyền và bóng ném. Mỗi bài viết chi phí khoảng $0,016 trong các lệnh gọi API tới Claude Sonnet. Điều đó cộng dồn nhanh chóng — 500 bài viết mỗi ngày có nghĩa là $240 mỗi tháng, hoặc $2.880 mỗi năm.

Ngoài chi phí, chúng tôi muốn:

  • Kiểm soát mô hình — khả năng tinh chỉnh theo phong cách biên tập chính xác của chúng tôi thay vì nhắc một mô hình mục đích chung vào nó
  • Suy luận ngoại tuyến — không phụ thuộc vào tính khả dụng API bên ngoài
  • Bảo mật dữ liệu — dữ liệu trận đấu không bao giờ rời khỏi cơ sở hạ tầng của chúng tôi

Giả thuyết: nếu chúng tôi huấn luyện mô hình tham số 31B trên 120 bài viết “hoàn hảo” được viết bởi Claude Sonnet, nó sẽ học cấu trúc, tông và quy ước thể thao cụ thể đủ tốt để tự động tạo bài viết.

Quy trình

Thử nghiệm chạy trong năm giai đoạn:

Giai đoạn 1: Chọn trận đấu huấn luyện — Không phải tất cả các trận đấu đều tạo ra những ví dụ huấn luyện tốt. Chúng tôi đã xây dựng một hệ thống tính điểm độ phong phú ưa thích các trận đấu giàu dữ liệu với các sự kiện, thống kê và bối cảnh bảng xếp hạng. Chúng tôi chọn 100 bài viết trận đấu và 20 tóm tắt ngày giải đấu, với sự đa dạng trên các loại kết quả (chiến thắng sân nhà, chiến thắng sân khách, hoà, thắng lớn, bắt kịp). Đối với thử nghiệm ban đầu này, chúng tôi tập trung độc quyền vào bóng đá: 120 ví dụ huấn luyện tổng cộng.

Giai đoạn 2: Tạo bài viết tham khảo với Claude Sonnet — Dữ liệu JSON của mỗi trận đấu được chuyển đổi thành lời nhắc văn bản có cấu trúc và được gửi tới Claude Sonnet với lời nhắc hệ thống xác định cấu trúc bài viết kim tự tháp đảo ngược: tiêu đề, đoạn mở với điểm, những khoảnh khắc chính theo thứ tự thời gian, phân tích thống kê, bối cảnh giải đấu và cái nhìn tương lai ngắn gọn. Mỗi bài viết chi phí ~$0,016. Tập dữ liệu 120 bài viết hoàn chỉnh chi phí dưới $2.

Giai đoạn 3: Định dạng tập dữ liệu — Các bài viết được chuyển đổi thành định dạng trò chuyện của Gemma (<start_of_turn>user / <start_of_turn>model) và được chia 90/10 thành 115 ví dụ huấn luyện và 13 ví dụ xác thực.

Giai đoạn 4: Tinh chỉnh với LoRA trên MLX — Đây là nơi Apple Silicon kiếm được tiền. Toàn bộ mô hình 31B phù hợp với bộ nhớ thống nhất trên M3 Max. Chúng tôi đã sử dụng LoRA để chèn các ma trận có thể huấn luyện nhỏ vào 16 lớp, thêm chỉ 16,3 triệu tham số có thể huấn luyện — 0,053% tổng số.

Tham sốGiá trị
Mô hình cơ sởgoogle/gemma-4-31B-it
Tham số có thể huấn luyện16,3M (0,053% của 31B)
Ví dụ huấn luyện115
Kỷ nguyên3
Tổng số lần lặp345
Kích thước lô1
Tỷ lệ học tập1e-4
Sử dụng bộ nhớ đỉnh76,4 GB
Thời gian huấn luyện~2,5 giờ

Tổn thất xác thực giảm từ 6,614 xuống 1,224 trong 345 lần lặp, với cải thiện dốc nhất trong 100 bước đầu tiên.

Giai đoạn 5: Lượng tử hóa — Chúng tôi đã áp dụng lượng tử hóa 4 bit bằng cách sử dụng MLX, nén mô hình từ 62GB xuống ~16GB. Điều này làm cho suy luận nhanh hơn 2,6 lần trong khi duy trì chất lượng chấp nhận được.

Kết quả: Gemma 4 so với Claude Sonnet

Chúng tôi đã so sánh năm bài viết được tạo từ dữ liệu trận đấu giống hệt nhau trên cả ba cấu hình.

Cấu hìnhTừ trung bìnhThời gian trung bìnhChất lượng
Claude Sonnet (API)402~2sDòng chảy tường thuật tốt nhất, không ảo giác
Gemma 4 31B fp16 + LoRA391207sCấu trúc mạnh, lặp lại thỉnh thoảng
Gemma 4 31B 4-bit + LoRA42580sCấu trúc tốt, lỗi thực tế nhỏ thỉnh thoảng

Nơi Gemma 4 được tinh chỉnh xuất sắc:

  • Tiêu đề luôn mạnh mẽ — trong một trường hợp giống hệt từng chữ với đầu ra của Sonnet
  • Cấu trúc bài viết tuân theo mẫu kim tự tháp đảo ngược một cách hoàn hảo
  • Các sự kiện trận đấu (tên đội, điểm số, ghi bàn, phút) được báo cáo chính xác trong hầu hết các trường hợp

Nơi Sonnet vẫn dẫn đầu:

  • Dòng chảy tường thuật — các bài viết của Sonnet đọc tự nhiên hơn với các chuyển tiếp đoạn tốt hơn
  • Độ chính xác thực tế — không ảo giác hoặc sai lệnh trong tập kiểm tra
  • Tính nhất quán — đáng tin cậy tạo ra các bài viết trong số từ mục tiêu với chất lượng đồng đều

Liệu huấn luyện LoRA có đáng giá không? Hoàn toàn có. Không có LoRA, mô hình Gemma 4 cơ sở tạo ra đầu ra lộn xộn với các mã thông báo suy nghĩ nội bộ (<|channel>thought), định dạng markdown và viết thể thao chung. Mô hình được tinh chỉnh xuất ra văn bản sạch, sẵn sàng sản xuất theo phong cách biên tập chính xác của chúng tôi. Toàn bộ chi phí huấn luyện LoRA $2 trong lệnh gọi API và 2,5 giờ tính toán.

Ghi chú quan trọng: M3 Max là bàn kiểm tra, không phải mục tiêu sản xuất

MacBook Pro M3 Max đã phục vụ mục đích của nó như một nền tảng phát triển và thử nghiệm. Nó chứng minh rằng tinh chỉnh và suy luận trên mô hình 31B khả thi về mặt kỹ thuật trên Apple Silicon. Nhưng chúng tôi sẽ không bao giờ triển khai khối lượng công việc sản xuất trên máy tính xách tay cục bộ.

Để triển khai sản xuất thực tế, một phiên bản GPU đám mây là lựa chọn đúng. Đây là cách triển khai thực tế trên AWS.

Phân tích chi phí: GPU đám mây so với Sonnet API so với Máy cục bộ

Triển khai GPU AWS (g5.xlarge — NVIDIA A10G, 24GB VRAM)

Mô hình Gemma 4 được lượng tử hóa 4 bit (16GB) vừa với GPU A10G duy nhất. Tốc độ suy luận trên A10G nhanh hơn đáng kể so với Apple Silicon — khoảng 15 giây mỗi bài viết so với 80 giây trên M3 Max.

Chỉ sốGiá trị
Loại phiên bảng5.xlarge
GPUNVIDIA A10G (24GB VRAM)
Giá theo yêu cầu$1.006/hr
Giá spot (điển hình)~$0.40/hr
Tốc độ suy luận~15 giây/bài viết
Thông lượng~240 bài viết/giờ
Chi phí mỗi bài viết (theo yêu cầu)$0.0042
Chi phí mỗi bài viết (spot)$0.0017

So sánh chi phí hàng tháng cạnh nhau (500 bài viết/ngày)

Phương phápChi phí/Bài viếtChi phí hàng ngàyChi phí hàng thángChi phí hàng năm
Claude Sonnet API$0.016$8.00$240$2.880
AWS g5.xlarge (theo yêu cầu)$0.0042$2.10$63$756
AWS g5.xlarge (spot)$0.0017$0.85$25.50$306
M3 Max cục bộ (điện)$0.0007$0.35$10.50$126

Lợi thế GPU rõ ràng: giảm chi phí 74% trên các phiên bản theo yêu cầu, 89% trên các phiên bản spot, so với lệnh gọi Sonnet API — với tốc độ tạo chỉ 7-8 lần chậm hơn lệnh gọi API thay vì 40 lần chậm hơn trên M3 Max.

Kinh tế máy cục bộ

M3 Max cục bộ có chi phí biên giới thấp nhất ($0,0007/bài viết trong điện) nhưng có khoản đầu tư ban đầu cao nhất. Với ~45 bài viết mỗi giờ (được lượng tử hóa 4 bit), M3 Max duy nhất tạo ra khoảng 1.080 bài viết mỗi ngày chạy 24/7.

Yếu tố chi phíGiá trị
Chi phí phần cứng~$4.000 (MacBook Pro M3 Max 96GB)
Tiêu thụ điện~200W dưới tải
Chi phí điện~$0,72/ngày (24h liên tục)
Thông lượng~1.080 bài viết/ngày
Hoàn vốn so với Sonnet~260.000 bài viết (~8 tháng ở 500/ngày)

Khi nào cục bộ có ý nghĩa? Đối với các công ty cần bảo mật dữ liệu 100% và không thể sử dụng các mô hình dựa trên đám mây — cho dù là do các yêu cầu quy định, nghĩa vụ hợp đồng hay hoạt động trong các lĩnh vực nhạy cảm — triển khai cục bộ loại bỏ tất cả truyền dữ liệu bên ngoài. Dữ liệu trận đấu, trọng số mô hình và nội dung được tạo không bao giờ rời khỏi cơ sở hạ tầng của công ty. Đây không phải là về tối ưu hóa chi phí; nó là về tuân thủ và kiểm soát. Các ngành công nghiệp như quốc phòng, chăm sóc sức khỏe, tài chính và pháp lý có thể thấy đây là mô hình triển khai duy nhất chấp nhận được.

Khi nào huấn luyện mô hình tùy chỉnh có lợi nhuận?

Câu hỏi quan trọng: ở khối lượng nào thì khoản đầu tư vào tinh chỉnh hoàn vốn so với chỉ sử dụng Claude Sonnet cho mọi thứ?

Chi phí một lần cho quy trình mô hình tùy chỉnh

MụcChi phí
Tạo dữ liệu huấn luyện (120 bài viết qua Sonnet)$2
Dữ liệu huấn luyện 9 môn thể thao đầy đủ (960 bài viết)$16
Thời gian nhà phát triển cho quy trình (~20 giờ)~$500
Thời gian GPU AWS để huấn luyện (tùy chọn)~$5
Tổng khoản đầu tư một lần~$523

Tính toán hoàn vốn

Tiết kiệm mỗi bài viết phụ thuộc vào triển khai của bạn:

Triển khaiChi phí/Bài viếtTiết kiệm so với SonnetHoàn vốn (bài viết)Hoàn vốn ở 500/ngày
AWS theo yêu cầu$0.0042$0.0118~44.300~89 ngày (~3 tháng)
AWS spot$0.0017$0.0143~36.600~73 ngày (~2,5 tháng)
M3 Max cục bộ$0.0007$0.0153~34.200~68 ngày (~2 tháng)

Nếu chúng tôi loại trừ thời gian nhà phát triển (coi nó là chi phí đã chìm cho trải nghiệm học tập) và chỉ tính chi phí cơ sở hạ tầng cứng ($21):

Triển khaiHoàn vốn (bài viết)Hoàn vốn ở 500/ngày
AWS theo yêu cầu~1.7803,5 ngày
AWS spot~1.4703 ngày
M3 Max cục bộ~1.3702,7 ngày

Toán học rõ ràng: nếu bạn tạo hơn ~1.500 bài viết, mô hình tùy chỉnh sẽ hoàn vốn cho chính nó về chi phí cứng. Bao gồm thời gian nhà phát triển đẩy hoàn vốn đến khoảng 35.000-45.000 bài viết, hoặc khoảng 2,5-3 tháng ở 500 bài viết mỗi ngày.

Ở quy mô lớn (500+ bài viết/ngày), tiết kiệm hàng năm là đáng kể:

Phương phápChi phí hàng nămTiết kiệm hàng năm so với Sonnet
Claude Sonnet$2.880
AWS g5 theo yêu cầu$756 + $523 một lần = $1.279 (năm 1)$1.601
AWS g5 spot$306 + $523 một lần = $829 (năm 1)$2.051
M3 Max cục bộ$126 + $4.523 (phần cứng + thiết lập) = $4.649 (năm 1)-$1.769 (năm 1), +$2.754 (năm 2+)

Chiến lược lai

Phương pháp thực tế nhất là lai: sử dụng mô hình Gemma 4 được tinh chỉnh cho nội dung thường xuyên (phần lớn khối lượng), và dành riêng Claude Sonnet cho:

  • Các bài viết phức tạp yêu cầu lý luận phân tích sâu hơn
  • Những tình huống bất thường mà mô hình không có dữ liệu huấn luyện
  • Các môn thể thao hoặc loại nội dung mới trước khi dữ liệu tinh chỉnh tồn tại
  • Các bài viết quan trọng về chất lượng nơi rủi ro ảo giác bằng không là cần thiết

Điều này giúp bạn có được lợi ích chi phí của suy luận tự lưu trữ trên 80-90% khối lượng của bạn trong khi giữ chất lượng vượt trội của Sonnet có sẵn cho các trường hợp cạnh tranh quan trọng nhất.

Những gì chúng tôi đã học

LoRA là cực kỳ hiệu quả cho chuyển giao phong cách. Chỉ với 115 ví dụ huấn luyện, mô hình đã học được định dạng bài viết chính xác, tông và quy ước thể thao cụ thể của chúng tôi. Cấu trúc kim tự tháp đảo ngược, phong cách động từ tích cực và cách tiếp cận dựa trên dữ liệu đều chuyển giao sạch sẽ.

Apple Silicon là một nền tảng huấn luyện khả thi cho các mô hình 31B. M3 Max xử lý toàn bộ mô hình với kiểm tra điểm dừng gradient, đạt đỉnh ở 76,4GB. Huấn luyện hoàn tất trong 2,5 giờ — nhanh đủ để lặp lại các siêu tham số trong một ngày làm việc duy nhất.

Dữ liệu đầu vào có cấu trúc rất quan trọng. Chất lượng của trình định dạng dữ liệu trực tiếp ảnh hưởng đến chất lượng bài viết. Đầu tư vào trích xuất dữ liệu toàn diện mang lại lợi tức trên cả đường dẫn API và tự lưu trữ.

Triển khai sản xuất thuộc về đám mây (đối với hầu hết các đội). M3 Max chứng minh khái niệm. Các phiên bản GPU AWS cung cấp tốc độ và độ tin cậy cần thiết cho khối lượng công việc sản xuất với chi phí thấp hơn 74-89% so với lệnh gọi API. Các máy cục bộ vẫn là lựa chọn đúng chỉ khi các yêu cầu bảo mật dữ liệu loại bỏ tất cả cơ sở hạ tầng bên ngoài.

Toán học hoàn vốn ủng hộ các mô hình tùy chỉnh ở quy mô vừa phải. Bất kỳ đội nào tạo ra hơn ~1.500 bài viết sẽ hoàn lại chi phí cứng của tinh chỉnh gần như ngay lập tức. Câu hỏi thực sự không phải là liệu các mô hình tùy chỉnh có tiết kiệm tiền — nó là liệu đội của bạn có dung lượng kỹ thuật để xây dựng và duy trì quy trình.

Kết luận

Tinh chỉnh Gemma 4 31B tạo ra một trình tạo nội dung phù hợp với Claude Sonnet về chất lượng tiêu đề, cấu trúc bài viết và độ chính xác thực tế — trong khi giảm chi phí mỗi bài viết 74-89% trên cơ sở hạ tầng đám mây và cho phép triển khai hoàn toàn riêng tư, tại chỗ cho các tổ chức yêu cầu.

MacBook M3 Max đã phục vụ thuần túy như một bàn kiểm tra cho thử nghiệm này. Triển khai sản xuất thực tế sẽ chạy trên các phiên bản GPU AWS (g5.xlarge với A10G), nơi mô hình được lượng tử hóa tạo ra các bài viết trong khoảng 15 giây ở $0,0042 mỗi bài — so với $0,016 mỗi lệnh gọi Sonnet API.

Đối với các công ty cần bảo mật dữ liệu hoàn toàn và không thể sử dụng các dịch vụ AI dựa trên đám mây, máy cục bộ chạy mô hình được lượng tử hóa là một tùy chọn hợp pháp. Ở ~45 bài viết mỗi giờ, một máy trạm duy nhất xử lý khối lượng vừa phải với không có phơi nhiễm dữ liệu bên ngoài. Khoản đầu tư phần cứng hoàn vốn cho chính nó trong khoảng 8 tháng so với chi phí API.

Kinh tế rõ ràng: ở 500 bài viết mỗi ngày, mô hình được tinh chỉnh tùy chỉnh trên các phiên bản AWS spot tiết kiệm hơn $2.000 mỗi năm so với lệnh gọi Claude Sonnet API. Điểm hoàn vốn đến trong vòng 3 tháng. Đối với các đội đã chạy tạo nội dung ở quy mô lớn, sự kết hợp của các mô hình có trọng số mở, tinh chỉnh LoRA và phần cứng GPU hàng hóa đại diện cho một lựa chọn thay thế đáng tin cậy, tiết kiệm chi phí cho các API độc quyền.


Được xây dựng bằng FlowHunt . Toàn bộ quy trình — từ chuẩn bị dữ liệu thông qua tinh chỉnh đến suy luận — có sẵn như một phần của bộ công cụ nền tảng dữ liệu thể thao của chúng tôi.

Câu hỏi thường gặp

Viktor Zeman là đồng sở hữu của QualityUnit. Sau 20 năm lãnh đạo công ty, anh vẫn chủ yếu là một kỹ sư phần mềm, chuyên về AI, SEO theo lập trình và phát triển backend. Anh đã đóng góp cho nhiều dự án, bao gồm LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab và nhiều dự án khác.

Viktor Zeman
Viktor Zeman
CEO, Kỹ sư AI

Xây dựng quy trình nội dung do AI hỗ trợ

FlowHunt giúp bạn xây dựng các quy trình tạo nội dung tự động bằng cách sử dụng các mô hình AI tốt nhất — cho dù là API đám mây hay các mô hình nguồn mở tự lưu trữ.

Tìm hiểu thêm

Tác Nhân AI: GPT 4o Suy Nghĩ Như Thế Nào
Tác Nhân AI: GPT 4o Suy Nghĩ Như Thế Nào

Tác Nhân AI: GPT 4o Suy Nghĩ Như Thế Nào

Khám phá quá trình tư duy của các Tác nhân AI trong bài đánh giá toàn diện về GPT-4o này. Tìm hiểu cách nó thực hiện các nhiệm vụ như tạo nội dung, giải quyết v...

12 phút đọc
AI GPT-4o +6