Multi-Token Prediction(MTP)이란 무엇인가요?

Multi-Token Prediction은 LLM이 한 번에 하나의 토큰이 아닌 단일 순방향 패스에서 여러 미래 토큰을 예측하는 기술입니다. 메인 모델과 함께 추가 예측 헤드가 훈련되어 N+1, N+2, N+3 등의 토큰을 동시에 초안으로 생성하고, 이를 메인 모델이 병렬로 검증합니다. 이를 통해 출력 품질 저하 없이 1.5~2배의 추론 속도 향상을 달성할 수 있습니다.

Gemma 4는 MTP를 지원하나요?

Gemma 4는 MTP 예측 헤드와 함께 훈련되었으며, Google의 LiteRT(온디바이스 추론) 내보내기에는 이 헤드가 포함되어 있습니다. 그러나 공개된 HuggingFace 가중치에서는 MTP 헤드가 의도적으로 제거되었습니다. Google은 기존 추론 프레임워크와의 '폭넓은 호환성'을 위해 이렇게 했다고 밝혔습니다.

MTP 헤드를 제거하는 것이 왜 중요한가요?

MTP 헤드가 없으면 vLLM, llama.cpp, SGLang 등의 서드파티 추론 엔진은 Gemma 4에 대해 내장된 추측적 디코딩을 사용할 수 없습니다. 사용자는 표준 자기회귀 생성에 머물 수밖에 없으며, 이는 상당히 느립니다. 벤치마크에 따르면 비슷한 모델이 60+ 토큰/초를 달성하는 하드웨어에서 Gemma 4는 11 토큰/초만 생성합니다.

추측적 디코딩이란 무엇인가요?

추측적 디코딩은 빠른 '초안' 모델이 한 번에 여러 토큰을 제안하고, 메인 모델이 단일 순방향 패스에서 이를 검증하는 추론 가속 기술입니다. 초안 토큰이 정확하면 여러 디코드 단계를 효과적으로 건너뛸 수 있습니다. MTP는 별도 모델이 아닌 모델 자체의 내장 예측 헤드에서 초안 토큰이 생성되는 변형입니다.

Google이 Gemma 4의 MTP 헤드를 공개할 예정인가요?

2026년 4월 현재, Google은 HuggingFace 가중치에 MTP 예측 헤드를 공개할 계획을 발표하지 않았습니다. 현재 MTP 헤드는 LiteRT로 내보낸 모델에서만 사용 가능하며, Google 자체 추론 프레임워크로의 사용이 제한됩니다. 커뮤니티는 계속해서 공개를 요청하고 있습니다.

Gemma 4, MTP 데이터 없이 출시 — 이것이 중요한 이유

Google은 자체 LiteRT 프레임워크에는 MTP 예측 헤드를 유지하면서 Gemma 4 공개 릴리스에서는 이를 제거했습니다. 추론 속도와 오픈소스 AI에 어떤 의미가 있는지 알아봅니다.

AI LLM Gemma Open Source

시작하기 더 읽기

Google은 2026년 4월 3일 Gemma 4를 출시했습니다 — 강력한 벤치마크 결과, 멀티모달 기능, 최대 256K 컨텍스트를 갖춘 오픈 웨이트 모델 패밀리입니다. 수치상으로는 인상적인 릴리스입니다. 하지만 몇 시간 만에 커뮤니티는 빠진 것을 발견했습니다: Multi-Token Prediction 헤드가 공개 가중치에서 제거되어 있었던 것입니다.

모델은 MTP로 훈련되었습니다. Google 자체 LiteRT 프레임워크에는 MTP 구성 요소가 포함되어 있습니다. 하지만 모든 사람이 HuggingFace에서 다운로드할 수 있는 버전은? 표준 자기회귀 생성만 가능합니다. 속도 향상도 없고, 추측적 디코딩도 없습니다.

이 글에서는 MTP가 무엇인지, 왜 중요한지, 그리고 이 결정이 자체 하드웨어에서 Gemma 4를 실행하는 모든 사람에게 어떤 의미인지 설명합니다.

Gemma 4란 무엇인가요?

Gemma 4는 Google DeepMind의 최신 오픈 웨이트 모델 패밀리로, Apache 2.0 라이선스로 출시되었습니다. 네 가지 크기로 제공됩니다:

모델	파라미터	유형	주요 특징
Gemma 4 E2B	2.3B 유효	Dense	비전 + 오디오
Gemma 4 E4B	4.5B 유효	Dense	비전 + 오디오
Gemma 4 26B-A4B	26B 전체 / 4B 활성	Mixture of Experts	비전
Gemma 4 31B	31B	Dense	비전

주요 기능으로는 네이티브 멀티모달 지원, 함수 호출, 구조화된 JSON 출력, 140개 이상 언어 훈련이 포함됩니다. 31B 변형은 LMArena 텍스트 리더보드에서 3위를 차지했습니다.

내부적으로 Gemma 4는 여러 아키텍처 혁신을 도입합니다: 교대로 사용되는 로컬 슬라이딩 윈도우 및 글로벌 어텐션 레이어, 비례 RoPE(p-RoPE), Per-Layer Embeddings(PLE), 공유 KV 캐시, 그리고 “Keys equal Values” 메모리 최적화 등입니다.

수치상으로 보면 강력한 릴리스입니다. 문제는 공개 가중치에 포함되지 않은 것입니다.

Multi-Token Prediction이란 무엇인가요?

표준 대형 언어 모델은 한 번에 하나의 토큰씩 텍스트를 생성합니다. 각 토큰에는 모델 전체를 통한 순방향 패스가 필요합니다. 이전 토큰이 완료될 때까지 다음 토큰을 시작할 수 없습니다. 이것이 자기회귀 디코딩이며, 본질적으로 순차적입니다.

표준 자기회귀 디코딩(단계당 하나의 토큰)과 Multi-Token Prediction(단계당 여러 토큰)을 비교하는 다이어그램

**Multi-Token Prediction(MTP)**은 모델에 추가 예측 헤드를 더하여 이를 변화시킵니다. 다음 토큰만 예측하는 대신, 모델은 토큰 N+1, N+2, N+3 등을 단일 순방향 패스에서 모두 예측합니다.

작동 방식은 다음과 같습니다:

훈련 단계: 메인 모델과 함께 추가 경량 예측 헤드가 훈련됩니다. 각 헤드는 서로 다른 미래 위치(1칸 앞, 2칸 앞, 3칸 앞 등)를 예측하도록 학습합니다.
추론 단계: 추가 헤드가 병렬로 “초안” 토큰을 생성합니다. 그런 다음 메인 모델이 단일 순방향 패스에서 모든 토큰을 검증합니다.
검증: 초안 토큰이 메인 모델이 생성했을 것과 일치하면, 모두 한 번에 수락됩니다 — 여러 순차적 디코드 단계를 건너뛰는 것입니다. 초안 토큰이 틀리면 해당 위치로 돌아가 생성을 재개합니다.

이것은 추측적 디코딩과 밀접한 관련이 있지만, 핵심적인 장점이 있습니다: 초안 토큰이 별도의 작은 “초안 모델"이 아닌 모델 자체에서 나온다는 것입니다.

MTP 예측 헤드가 메인 트랜스포머 모델에 연결되어 여러 초안 토큰을 동시에 생성하는 방식을 보여주는 아키텍처 다이어그램

MTP는 얼마나 빠른가요?

속도 향상은 초안 토큰이 정확한 빈도(“수락률”)에 따라 달라집니다. DeepSeek V3가 실제 영향을 보여주었습니다:

지표	값
평균 수락 길이	검증 단계당 2.4 토큰
추론 속도 향상	평균 1.8배 (최대 2.1배)
출력 품질 영향	없음 — 모든 토큰은 메인 모델이 검증

수락률 2.4는 평균적으로 메인 모델의 각 순방향 패스가 1개가 아닌 2.4개의 토큰을 생성한다는 의미입니다. 출력은 표준 디코딩과 수학적으로 동일합니다 — 모든 토큰이 검증됩니다. 거의 두 배의 속도로 동일한 품질을 얻을 수 있습니다.

Gemma 4에 무슨 일이 있었나

HuggingFace 사용자(@shadowlilac )가 Google의 Gemma 4용 LiteRT 패키지에 MTP 예측 헤드와 다중 토큰 예측 기능이 포함되어 있다는 것을 발견했습니다. 하지만 HuggingFace에 공개된 가중치에는 이 중 어떤 것도 포함되어 있지 않습니다.

MTP 구성 요소는 의도적으로 제거되었습니다:

체크포인트에 MTP 헤드 없음
모델 설정에 MTP 없음
순방향 패스에 MTP 없음

Gemma 4 훈련에는 MTP 헤드가 포함되었지만, 공개 HuggingFace 릴리스에서는 제거되었고 Google의 LiteRT 버전에만 유지된 것을 보여주는 다이어그램

Google의 설명

Google 엔지니어(@srikanta-221 )가 이것이 의도적이었다고 확인했습니다:

공개 모델은 “폭넓은 호환성"을 위해 표준 자기회귀 인터페이스만 노출합니다. MTP 헤드는 모델 설정, 순방향 패스, 체크포인트에서 제외됩니다. 이를 통해 HuggingFace Transformers API와의 호환성을 보장하고 일관된 체크포인트 및 런타임 동작을 유지합니다.

Google은 MTP를 핵심 모델 기능이 아닌 “배포 시점 최적화"로 규정합니다. MTP 예측 헤드는 LiteRT로 내보낸 모델 — Google 자체 온디바이스 추론 프레임워크 — 에서만 유지됩니다.

이것이 문제인 이유

이 설명은 면밀히 살펴보면 설득력이 떨어집니다:

1. 모델은 MTP로 훈련되었습니다. 해당 기능은 존재합니다. 릴리스에서 이를 제거하는 것은 기술적 제한이 아닌 선택입니다.

2. 서드파티 엔진이 구현할 수 없습니다. vLLM, llama.cpp, SGLang 및 기타 추론 프레임워크는 예측 헤드 없이 MTP 기반 추측적 디코딩을 사용할 수 없습니다. 이러한 엔진은 오픈소스 LLM 배포의 대다수를 담당합니다.

3. 사용자는 느린 버전을 받게 됩니다. MTP 없이 Gemma 4는 표준 자기회귀 속도로 실행됩니다. 성능 차이는 이미 실제 사용에서 나타나고 있습니다:

모델	하드웨어	속도	비고
Gemma 4 26B-A4B	5060 Ti 16GB	11 tok/s	MTP 없음, 표준 디코딩
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ tok/s	비교 가능한 MoE 모델
Gemma 4 E4B	RTX 4090 (vLLM)	~9 tok/s	FlashAttention 폴백 문제

4. 생태계 종속을 만듭니다. Google 자체 LiteRT 프레임워크가 속도 이점을 가집니다. 다른 모든 사용자는 더 느린 모델을 받습니다. “오픈 웨이트” Apache 2.0 릴리스로서 이것은 상당한 비대칭입니다.

추측적 디코딩의 작동 원리 (그리고 MTP가 더 나은 이유)

누락된 MTP 헤드가 왜 중요한지 이해하려면, 추론 최적화의 발전 과정에서 MTP가 어디에 위치하는지 살펴보는 것이 도움이 됩니다.

세 가지 추측적 디코딩 접근 방식 비교: 전통적(별도 초안 모델), 추측적-추측적, MTP(내장 예측 헤드)

접근 방식 1: 전통적 추측적 디코딩

별도의 작은 “초안 모델"이 토큰을 제안합니다. 메인 모델이 이를 병렬로 검증합니다. 초안이 정확하면 단계당 여러 토큰이 수락됩니다.

장점: 모든 모델 쌍에서 작동
단점: 두 번째 모델의 유지 및 로딩 필요; 초안 모델의 품질이 속도 향상을 제한; 추가 메모리 오버헤드

접근 방식 2: MTP (내장 예측 헤드)

메인 모델이 자체 경량 예측 헤드를 가지고 있어 초안 토큰을 생성합니다. 별도 모델이 필요 없습니다.

장점: 추가 모델 불필요; 더 긴밀한 통합으로 더 높은 수락률; 더 낮은 메모리 오버헤드
단점: 예측 헤드가 릴리스에 포함된 경우에만 작동

MTP가 우수한 이유

MTP 예측 헤드는 메인 모델과 함께 훈련됩니다. 동일한 내부 표현을 공유하고 모델 자체의 토큰 분포를 학습합니다. 이는 일반적으로 외부 초안 모델보다 더 높은 수락률을 생성하며, 이는 검증 단계당 더 많은 토큰이 수락되고 전체적으로 더 빠른 생성을 의미합니다.

예측 헤드는 또한 크기가 작습니다 — 일반적으로 모델 전체 파라미터 수의 1-3%만 추가됩니다. 별도의 초안 모델을 로딩하는 것과 비교하면 메모리 오버헤드는 무시할 수준입니다.

더 넓은 영향

이것은 단순히 Gemma 4만의 문제가 아닙니다. 이 결정은 “오픈” 오픈 웨이트 릴리스가 실제로 얼마나 개방적인지에 대한 선례를 만듭니다.

사용자가 잃는 것:

모든 서드파티 추론 엔진에서의 MTP 기반 추측적 디코딩
MTP 헤드를 미세 조정하거나 실험할 수 있는 능력
Google 자체 배포 도구와의 성능 동등성

사용자가 여전히 가지는 것:

기본 모델 가중치 (진정으로 우수한 품질)
별도 초안 모델을 사용한 전통적 추측적 디코딩 (vLLM 이슈 #38893 에서 Gemma 4용 Eagle3 지원 추적 중)
표준 양자화 및 최적화 기술

커뮤니티 반응은 직접적이었습니다. 24시간 내 합의는 Gemma 4의 벤치마크 결과가 경쟁력 있다는 것 — Qwen 3.5와 동등하거나 약간 뒤처지는 수준 — 이지만, 제품이 “완성되지 않았다"는 것이었습니다. 속도, 안정성, 도구 지원이 필요합니다. 추가 문제로는 HuggingFace Transformers에서 초기에 Gemma 4 아키텍처 지원이 부족했던 것, PEFT가 새로운 레이어 유형을 처리하지 못하는 것, Mac 사용자가 대형 모델 로딩 시 충돌을 경험하는 것 등이 있습니다.

무엇을 할 수 있나요?

배포를 위해 Gemma 4를 평가하고 있다면, 다음과 같은 실용적 옵션이 있습니다:

전통적 추측적 디코딩을 사용하세요. 외부 초안 모델은 여전히 Gemma 4 추론을 가속화할 수 있습니다. vLLM과 같은 프레임워크가 Gemma 4용 Eagle3 추측적 디코딩 지원을 추가하고 있습니다. 내장 MTP만큼의 속도 향상은 아니지만, 아무것도 없는 것보다 낫습니다.

속도가 중요한 워크로드에는 대안을 고려하세요. Qwen 3.5는 동등한 하드웨어에서 상당히 더 높은 초당 토큰 수를 제공합니다. 추론 속도가 가장 중요한 제약이라면, Qwen이 현재 더 나은 속도 대 품질 비율을 제공합니다.

커뮤니티 해결 방법을 주시하세요. LiteRT 내보내기에는 MTP 헤드가 포함되어 있습니다. 연구자들이 이를 추출하여 HuggingFace 가중치에 다시 연결하는 방법을 찾을 수 있지만, Google은 공식적으로 이 경로를 지원하지 않고 있습니다.

피드백을 제공하세요. Google 엔지니어들이 HuggingFace 토론 스레드를 적극적으로 모니터링하고 있습니다. MTP 헤드 공개에 대한 명확하고 기술적인 요청은 영향력이 있습니다.

결론

Gemma 4는 진정한 아키텍처 혁신과 강력한 벤치마크 결과를 갖춘 유능한 모델 패밀리입니다. 공개 릴리스에서 MTP 예측 헤드를 제거하면서 Google 자체 LiteRT 프레임워크에는 유지하기로 한 결정은 오픈 웨이트의 “오픈"을 훼손합니다.

MTP는 사소한 최적화가 아닙니다. 출력 품질에 전혀 영향 없이 1.5~2배의 추론 속도 향상을 제공할 수 있습니다. 모델이 명확히 MTP로 훈련되었음에도 공개 가중치에서 이를 보류하는 것은 이중 체제를 만듭니다: Google 도구를 위한 빠른 추론, 그 외 모든 사용자를 위한 느린 추론.

오픈소스 AI 커뮤니티에게 메시지는 명확합니다: 벤치마크만이 아니라 실제로 가중치에 무엇이 포함되어 있는지 확인하세요. 오픈 라이선스가 항상 오픈 릴리스를 의미하지는 않습니다.

FlowHunt 로 제작되었습니다. 오픈소스 AI의 최신 개발 소식을 블로그 에서 확인하세요.

자주 묻는 질문

: Multi-Token Prediction은 LLM이 한 번에 하나의 토큰이 아닌 단일 순방향 패스에서 여러 미래 토큰을 예측하는 기술입니다. 메인 모델과 함께 추가 예측 헤드가 훈련되어 N+1, N+2, N+3 등의 토큰을 동시에 초안으로 생성하고, 이를 메인 모델이 병렬로 검증합니다. 이를 통해 출력 품질 저하 없이 1.5~2배의 추론 속도 향상을 달성할 수 있습니다.
: Gemma 4는 MTP 예측 헤드와 함께 훈련되었으며, Google의 LiteRT(온디바이스 추론) 내보내기에는 이 헤드가 포함되어 있습니다. 그러나 공개된 HuggingFace 가중치에서는 MTP 헤드가 의도적으로 제거되었습니다. Google은 기존 추론 프레임워크와의 '폭넓은 호환성'을 위해 이렇게 했다고 밝혔습니다.
: MTP 헤드가 없으면 vLLM, llama.cpp, SGLang 등의 서드파티 추론 엔진은 Gemma 4에 대해 내장된 추측적 디코딩을 사용할 수 없습니다. 사용자는 표준 자기회귀 생성에 머물 수밖에 없으며, 이는 상당히 느립니다. 벤치마크에 따르면 비슷한 모델이 60+ 토큰/초를 달성하는 하드웨어에서 Gemma 4는 11 토큰/초만 생성합니다.
: 추측적 디코딩은 빠른 '초안' 모델이 한 번에 여러 토큰을 제안하고, 메인 모델이 단일 순방향 패스에서 이를 검증하는 추론 가속 기술입니다. 초안 토큰이 정확하면 여러 디코드 단계를 효과적으로 건너뛸 수 있습니다. MTP는 별도 모델이 아닌 모델 자체의 내장 예측 헤드에서 초안 토큰이 생성되는 변형입니다.
: 2026년 4월 현재, Google은 HuggingFace 가중치에 MTP 예측 헤드를 공개할 계획을 발표하지 않았습니다. 현재 MTP 헤드는 LiteRT로 내보낸 모델에서만 사용 가능하며, Google 자체 추론 프레임워크로의 사용이 제한됩니다. 커뮤니티는 계속해서 공개를 요청하고 있습니다.

최고의 모델로 AI 워크플로우를 구축하세요

FlowHunt를 사용하면 클라우드 API와 오픈소스 모델을 활용하여 자동화된 AI 파이프라인을 구축할 수 있습니다 — 속도, 비용, 품질을 완벽하게 제어하면서.

시작하기 더 읽기

더 알아보기

Apple Silicon에서 Gemma 4 미세 조정: Claude Sonnet을 콘텐츠 생성으로 대체할 수 있을까?

MacBook Pro M3 Max에서 Google의 Gemma 4 31B 모델을 미세 조정하여 스포츠 기사를 생성했습니다. 품질, 속도, 비용 측면에서 Claude Sonnet과 어떻게 비교되는지 확인하세요. 로컬 추론 vs. 클라우드 GPU vs. API 호출에 대한 전체 비용 분석도...

Apr 6, 2026 9 분 읽기

AI LLM +6

Google Gemini AI 챗봇이란?

Google Gemini가 무엇이며 어떻게 작동하는지, ChatGPT와 어떻게 비교되는지 알아보세요. 2025년을 위한 멀티모달 기능, 가격, 실제 활용 사례를 확인하세요....

Dec 1, 2025 8 분 읽기

Gemini 3 Flash: 프로를 능가하는 혁신적 AI 모델, 비용은 단 1/4

Google의 Gemini 3 Flash가 탁월한 성능, 저렴한 비용, 빠른 속도로 AI를 혁신하는 이유를 알아보세요 — 코딩 작업에서는 Gemini 3 Pro마저 능가합니다....

Dec 22, 2025 11 분 읽기

AI Models Google Gemini +3

Gemma 4, MTP 데이터 없이 출시 — 이것이 중요한 이유

Gemma 4란 무엇인가요?