Gemma 4, MTP 데이터 없이 출시 — 이것이 중요한 이유
Google의 Gemma 4는 Multi-Token Prediction 헤드로 훈련되었음에도 이를 제거한 채 출시되었습니다. MTP가 무엇인지, 추론 속도에 왜 중요한지, 그리고 오픈소스 AI 커뮤니티에 어떤 의미인지 설명합니다....
우리는 9개 스포츠 전반에 걸쳐 경기 보도 및 리그 라운드를 발행하는 스포츠 데이터 플랫폼을 운영합니다. 모든 기사는 Claude Sonnet에 대한 API 호출을 통해 생성되었습니다. 신뢰할 수 있고 높은 품질이지만 규모가 커지면서 비용이 많이 듭니다. 우리는 궁금해했습니다: 우리 자신의 데이터로 미세 조정된 오픈소스 모델이 유사한 품질의 기사를 생성할 수 있으면서 전적으로 로컬 하드웨어에서 실행될 수 있을까요?
이 글은 데이터 준비부터 LoRA 미세 조정까지 전체 실험을 설명합니다. Google의 Gemma 4 31B 모델, Apple의 MLX 프레임워크, 96GB의 통합 메모리가 있는 MacBook Pro M3 Max를 사용했습니다. 또한 실제 경제성도 분석합니다: 사용자 정의 모델 훈련이 API 호출과 비교했을 때 언제 실제로 비용을 절감할까요?
Gemma 4는 2025년에 Gemma 2 시리즈의 후속으로 출시된 Google의 오픈 웨이트 대규모 언어 모델 제품군입니다. 핵심 단어는 오픈 웨이트입니다. GPT-4나 Claude와 같은 독점 모델과 달리 Gemma 4의 가중치는 지속적인 API 비용 없이 자유롭게 다운로드, 미세 조정, 배포할 수 있습니다.
이 모델은 여러 크기로 제공됩니다. 우리는 31B 매개변수 명령어 조정 변형(google/gemma-4-31B-it)을 사용했으며, 이는 기능과 하드웨어 요구 사항 사이의 최적의 지점입니다. 전체 fp16 정밀도에서는 약 62GB의 메모리가 필요합니다. 4비트 양자화를 사용하면 약 16GB로 압축되어 32GB RAM이 있는 노트북에서 실행할 수 있을 정도로 작습니다.
Gemma 4가 우리의 사용 사례에 특히 흥미로운 이유:
트레이드오프는 명확합니다: API 호출의 플러그 앤 플레이 편의성을 포기하는 대신 제어, 개인정보 보호, 규모에서 극적으로 낮은 한계 비용을 얻습니다.
우리의 플랫폼은 축구, 농구, 하키, NFL, 야구, 럭비, 배구, 핸드볼 전반에 걸쳐 하루에 수백 개의 기사를 생성합니다. 각 기사는 Claude Sonnet에 대한 API 호출로 대략 $0.016이 듭니다. 이것은 빠르게 누적됩니다. 하루 500개 기사는 월 $240, 연 $2,880을 의미합니다.
비용 외에도 우리는 다음을 원했습니다:
가설: Claude Sonnet이 작성한 120개의 “완벽한” 기사로 31B 매개변수 모델을 훈련하면 구조, 톤, 스포츠별 관례를 충분히 학습하여 자율적으로 기사를 생성할 수 있어야 합니다.
실험은 5단계로 진행되었습니다:
1단계: 훈련 경기 선택 — 모든 경기가 좋은 훈련 예제가 되는 것은 아닙니다. 우리는 이벤트, 통계, 순위 맥락이 있는 데이터 밀집 경기를 선호하는 풍부함 점수 시스템을 구축했습니다. 우리는 결과 유형(홈 승리, 원정 승리, 무승부, 대승, 역전)에 걸쳐 다양성이 있는 100개의 경기 기사와 20개의 리그 데이 요약을 선택했습니다. 이 초기 실험에서는 축구에만 집중했습니다: 총 120개의 훈련 예제.
2단계: Claude Sonnet으로 참조 기사 생성 — 각 경기의 JSON 데이터는 구조화된 텍스트 프롬프트로 변환되어 Claude Sonnet에 전송되었으며, 시스템 프롬프트는 역 피라미드 기사 구조를 정의했습니다: 제목, 점수가 있는 리드 문단, 시간순 주요 순간, 통계 분석, 리그 맥락, 간단한 향후 전망. 각 기사는 약 $0.016이 들었습니다. 전체 120개 기사 데이터세트는 $2 미만이었습니다.
3단계: 데이터세트 포맷팅 — 기사는 Gemma의 채팅 형식(<start_of_turn>user / <start_of_turn>model)으로 변환되고 90/10으로 115개 훈련 및 13개 검증 예제로 분할되었습니다.
4단계: MLX에서 LoRA를 사용한 미세 조정 — 여기가 Apple Silicon이 진가를 발휘하는 곳입니다. 전체 31B 모델이 M3 Max의 통합 메모리에 맞습니다. 우리는 LoRA를 사용하여 16개 레이어에 작은 훈련 가능한 행렬을 삽입했으며, 단 1,630만 개의 훈련 가능한 매개변수를 추가했습니다. 전체의 0.053%입니다.
| 매개변수 | 값 |
|---|---|
| 기본 모델 | google/gemma-4-31B-it |
| 훈련 가능한 매개변수 | 16.3M (31B의 0.053%) |
| 훈련 예제 | 115 |
| 에포크 | 3 |
| 총 반복 | 345 |
| 배치 크기 | 1 |
| 학습률 | 1e-4 |
| 피크 메모리 사용량 | 76.4 GB |
| 훈련 시간 | ~2.5시간 |
검증 손실은 345번 반복에 걸쳐 6.614에서 1.224로 감소했으며, 처음 100단계에서 가장 가파른 개선이 있었습니다.
5단계: 양자화 — MLX를 사용하여 4비트 양자화를 적용하여 모델을 62GB에서 약 16GB로 압축했습니다. 이는 추론을 2.6배 빠르게 했으면서 수용 가능한 품질을 유지했습니다.
우리는 동일한 경기 데이터에서 생성된 5개의 기사를 세 가지 구성 모두에서 비교했습니다.
| 구성 | 평균 단어 | 평균 시간 | 품질 |
|---|---|---|---|
| Claude Sonnet (API) | 402 | ~2초 | 최고의 내러티브 흐름, 환각 없음 |
| Gemma 4 31B fp16 + LoRA | 391 | 207초 | 강한 구조, 가끔 반복 |
| Gemma 4 31B 4비트 + LoRA | 425 | 80초 | 좋은 구조, 가끔 사소한 사실 오류 |
미세 조정된 Gemma 4가 탁월한 부분:
Sonnet이 여전히 앞서는 부분:
LoRA 훈련이 가치가 있었나요? 절대적으로 그렇습니다. LoRA 없이 기본 Gemma 4 모델은 내부 생각 토큰(<|channel>thought), 마크다운 포맷팅, 일반 스포츠 작문으로 가득 찬 출력을 생성합니다. 미세 조정된 모델은 우리의 정확한 편집 스타일로 깨끗하고 프로덕션 준비가 된 텍스트를 출력합니다. 전체 LoRA 훈련 비용은 API 호출 $2와 2.5시간의 계산입니다.
MacBook Pro M3 Max는 개발 및 실험 플랫폼으로서의 목적을 달성했습니다. Apple Silicon에서 31B 모델의 미세 조정과 추론이 기술적으로 실행 가능함을 증명했습니다. 하지만 우리는 절대 로컬 노트북에 프로덕션 워크로드를 배포하지 않을 것입니다.
실제 프로덕션 배포의 경우 클라우드 GPU 인스턴스가 올바른 선택입니다. AWS에서의 현실적인 배포가 어떤 모습인지는 다음과 같습니다.
양자화된 4비트 Gemma 4 모델(16GB)은 단일 A10G GPU에 편하게 맞습니다. A10G의 추론 속도는 Apple Silicon보다 극적으로 빠릅니다. M3 Max에서 80초 대비 대략 기사당 15초입니다.
| 메트릭 | 값 |
|---|---|
| 인스턴스 유형 | g5.xlarge |
| GPU | NVIDIA A10G (24GB VRAM) |
| 온디맨드 가격 | $1.006/시간 |
| 스팟 가격(일반적) | ~$0.40/시간 |
| 추론 속도 | ~기사당 15초 |
| 처리량 | ~시간당 240개 기사 |
| 기사당 비용(온디맨드) | $0.0042 |
| 기사당 비용(스팟) | $0.0017 |
| 접근 방식 | 기사당 비용 | 일일 비용 | 월간 비용 | 연간 비용 |
|---|---|---|---|---|
| Claude Sonnet API | $0.016 | $8.00 | $240 | $2,880 |
| AWS g5.xlarge (온디맨드) | $0.0042 | $2.10 | $63 | $756 |
| AWS g5.xlarge (스팟) | $0.0017 | $0.85 | $25.50 | $306 |
| 로컬 M3 Max (전기) | $0.0007 | $0.35 | $10.50 | $126 |
GPU 장점은 명확합니다: Sonnet API 호출 대비 온디맨드 인스턴스에서 74% 비용 감소, 스팟 인스턴스에서 89% 비용 감소. 생성 속도는 M3 Max에서 40배 느린 대신 API 호출보다 7-8배만 느립니다.
로컬 M3 Max는 가장 낮은 한계 비용($0.0007/기사 전기)을 가지고 있지만 가장 높은 선행 투자를 가지고 있습니다. 약 시간당 45개 기사(4비트 양자화)로 단일 M3 Max는 24시간 연속 실행으로 대략 하루 1,080개 기사를 생성합니다.
| 비용 요소 | 값 |
|---|---|
| 하드웨어 비용 | ~$4,000 (MacBook Pro M3 Max 96GB) |
| 전력 소비 | ~부하 시 200W |
| 전기 비용 | ~일일 $0.72 (24시간 연속) |
| 처리량 | ~하루 1,080개 기사 |
| Sonnet 대비 손익분기점 | ~260,000개 기사 (~500/일 기준 약 8개월) |
로컬이 언제 합리적인가요? 100% 데이터 개인정보 보호가 필요하고 클라우드 기반 모델을 사용할 수 없는 회사의 경우. 규제 요구 사항, 계약 의무, 또는 민감한 도메인에서 운영하는 것이든 로컬 배포는 모든 외부 데이터 전송을 제거합니다. 경기 데이터, 모델 가중치, 생성된 콘텐츠는 회사의 전제에서 절대 떠나지 않습니다. 이것은 비용 최적화에 관한 것이 아닙니다. 준수와 제어에 관한 것입니다. 방위, 의료, 금융, 법률과 같은 산업은 이것이 유일하게 수용 가능한 배포 모델임을 알 수 있습니다.
중요한 질문: 사용자 정의 모델에 대한 투자가 모든 것에 Claude Sonnet을 사용하는 것과 비교했을 때 언제 손익분기점에 도달하나요?
| 항목 | 비용 |
|---|---|
| 훈련 데이터 생성(Sonnet을 통한 120개 기사) | $2 |
| 전체 9개 스포츠 훈련 데이터(960개 기사) | $16 |
| 파이프라인을 위한 개발자 시간(~20시간) | ~$500 |
| 훈련을 위한 AWS GPU 시간(선택 사항) | ~$5 |
| 총 일회성 투자 | ~$523 |
기사당 절감액은 배포에 따라 다릅니다:
| 배포 | 기사당 비용 | Sonnet 대비 절감 | 손익분기점(기사) | 하루 500개 기사 시 손익분기점 |
|---|---|---|---|---|
| AWS 온디맨드 | $0.0042 | $0.0118 | ~44,300 | ~89일 (~3개월) |
| AWS 스팟 | $0.0017 | $0.0143 | ~36,600 | ~73일 (~2.5개월) |
| 로컬 M3 Max | $0.0007 | $0.0153 | ~34,200 | ~68일 (~2개월) |
개발자 시간을 제외하고(학습 경험에 대한 매몰 비용으로 취급) 하드 인프라 비용만 계산하면($21):
| 배포 | 손익분기점(기사) | 하루 500개 기사 시 손익분기점 |
|---|---|---|
| AWS 온디맨드 | ~1,780 | 3.5일 |
| AWS 스팟 | ~1,470 | 3일 |
| 로컬 M3 Max | ~1,370 | 2.7일 |
수학은 간단합니다: 1,500개 이상의 기사를 생성하면 사용자 정의 모델이 하드 비용만으로도 비용을 절감합니다. 개발자 시간을 포함하면 손익분기점은 약 35,000-45,000개 기사, 또는 하루 500개 기사 기준으로 약 2.5-3개월입니다.
규모에서(하루 500+개 기사), 연간 절감액은 상당합니다:
| 접근 방식 | 연간 비용 | Sonnet 대비 연간 절감 |
|---|---|---|
| Claude Sonnet | $2,880 | — |
| AWS g5 온디맨드 | $756 + 일회성 $523 = $1,279 (1년차) | $1,601 |
| AWS g5 스팟 | $306 + 일회성 $523 = $829 (1년차) | $2,051 |
| 로컬 M3 Max | $126 + $4,523 (하드웨어 + 설정) = $4,649 (1년차) | -$1,769 (1년차), +$2,754 (2년차+) |
가장 실용적인 접근 방식은 하이브리드입니다: 미세 조정된 Gemma 4 모델을 일상적인 콘텐츠(대부분의 볼륨)에 사용하고 Claude Sonnet을 다음을 위해 예약합니다:
이것은 당신의 볼륨의 80-90%에서 자체 호스팅 추론의 비용 이점을 얻으면서 가장 중요한 엣지 케이스에 대해 Sonnet의 우수한 품질을 유지할 수 있게 합니다.
LoRA는 스타일 전이에 매우 효율적입니다. 단 115개의 훈련 예제로 모델은 우리의 정확한 기사 형식, 톤, 스포츠별 관례를 학습했습니다. 역 피라미드 구조, 능동 동사 스타일, 데이터 기반 접근 방식 모두 깨끗하게 전이되었습니다.
Apple Silicon은 31B 모델의 실행 가능한 훈련 플랫폼입니다. M3 Max는 그래디언트 체크포인팅과 함께 전체 모델을 처리했으며 76.4GB에서 피크했습니다. 훈련은 2.5시간 내에 완료되었습니다. 이는 단일 업무일 내에 하이퍼파라미터를 반복할 수 있을 정도로 빠릅니다.
구조화된 입력 데이터는 엄청나게 중요합니다. 데이터 포매터의 품질은 기사 품질에 직접 영향을 미칩니다. 포괄적인 데이터 추출에 투자하는 것은 API 및 자체 호스팅 경로 모두에서 배당금을 제공합니다.
프로덕션 배포는 클라우드에 속합니다(대부분의 팀의 경우). M3 Max는 개념을 증명했습니다. AWS GPU 인스턴스는 API 호출보다 74-89% 저렴하면서 프로덕션 워크로드에 필요한 속도와 안정성을 제공합니다. 로컬 머신은 데이터 개인정보 보호 요구 사항이 모든 외부 인프라를 배제할 때만 올바른 선택입니다.
손익분기점 수학은 중간 규모에서 사용자 정의 모델을 선호합니다. 1,500개 이상의 기사를 생성하는 모든 팀은 미세 조정의 하드 비용을 거의 즉시 회수합니다. 실제 질문은 사용자 정의 모델이 비용을 절감하는지 여부가 아닙니다. 당신의 팀이 파이프라인을 구축하고 유지할 엔지니어링 용량이 있는지 여부입니다.
Gemma 4 31B 미세 조정은 제목 품질, 기사 구조, 사실 정확도에서 Claude Sonnet과 일치하는 콘텐츠 생성기를 생성했습니다. 동시에 클라우드 인프라에서 기사당 비용을 74-89% 감소시키고 이를 필요로 하는 조직을 위해 완전히 비공개 온프레미스 배포를 가능하게 합니다.
M3 Max MacBook은 순전히 이 실험의 테스트 벤치로 사용되었습니다. 실제 프로덕션 배포는 AWS GPU 인스턴스(A10G가 있는 g5.xlarge)에서 실행되며, 여기서 양자화된 모델은 대략 15초에 기사당 $0.0042로 기사를 생성합니다. Sonnet API 호출당 $0.016과 비교됩니다.
클라우드 기반 AI 서비스를 사용할 수 없는 완전한 데이터 개인정보 보호가 필요한 회사의 경우 양자화된 모델을 실행하는 로컬 머신이 정당한 옵션입니다. 시간당 약 45개 기사로 단일 워크스테이션은 외부 데이터 노출이 전혀 없이 중간 볼륨을 처리합니다. 하드웨어 투자는 API 비용과 비교하여 약 8개월 내에 비용을 절감합니다.
경제성은 명확합니다: 하루 500개 기사에서 AWS 스팟 인스턴스의 사용자 정의 미세 조정 모델은 Claude Sonnet API 호출과 비교하여 연간 $2,000 이상을 절감합니다. 손익분기점은 3개월 미만에 도달합니다. 이미 규모에서 콘텐츠 생성을 실행 중인 팀의 경우 오픈 웨이트 모델, LoRA 미세 조정, 상용 GPU 하드웨어의 조합은 독점 API에 대한 신뢰할 수 있고 비용 효율적인 대안을 나타냅니다.
FlowHunt 로 구축되었습니다. 데이터 준비부터 미세 조정까지 추론까지의 완전한 파이프라인은 우리의 스포츠 데이터 플랫폼 툴킷의 일부로 사용 가능합니다.
빅토르 제만은 QualityUnit의 공동 소유주입니다. 20년이 넘는 기간 동안 회사를 이끌어왔지만, 여전히 주로 소프트웨어 엔지니어로서 AI, 프로그램적 SEO, 백엔드 개발을 전문으로 하고 있습니다. 그는 LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab 등 수많은 프로젝트에 기여해왔습니다.

Google의 Gemma 4는 Multi-Token Prediction 헤드로 훈련되었음에도 이를 제거한 채 출시되었습니다. MTP가 무엇인지, 추론 속도에 왜 중요한지, 그리고 오픈소스 AI 커뮤니티에 어떤 의미인지 설명합니다....

이 종합 평가에서 GPT-4o의 AI 에이전트의 사고 과정을 탐구하세요. 고급 지표와 심층 분석을 통해 콘텐츠 생성, 문제 해결, 창의적 글쓰기와 같은 작업에서의 성능을 확인할 수 있습니다. 적응적 추론과 멀티모달 AI 역량의 미래를 밝혀보세요....

Meta의 Llama 4 Scout AI 모델이 다섯 가지 다양한 작업에서 보여준 성능을 심층적으로 분석합니다. 콘텐츠 생성, 계산, 요약, 비교, 창의적 글쓰기에서 속도, 정확성, 출력 품질 등의 지표를 통해 인상적인 역량을 확인할 수 있습니다....