Multi-Token Prediction (MTP) là gì?

Multi-Token Prediction là một kỹ thuật trong đó LLM dự đoán nhiều token tương lai trong một lần forward pass thay vì mỗi lần một token. Các prediction head bổ sung được huấn luyện cùng mô hình chính để phác thảo đồng thời các token N+1, N+2, N+3, v.v., sau đó được mô hình chính xác minh song song. Điều này cho phép tăng tốc suy luận 1,5–2 lần mà không ảnh hưởng đến chất lượng đầu ra.

Gemma 4 có hỗ trợ MTP không?

Gemma 4 được huấn luyện với các MTP prediction head, và chúng có mặt trong bản xuất LiteRT (suy luận trên thiết bị) của Google. Tuy nhiên, các trọng số phát hành công khai trên HuggingFace đã bị cố tình loại bỏ các MTP head. Google cho biết điều này được thực hiện để 'tương thích rộng rãi' với các framework suy luận hiện có.

Tại sao việc loại bỏ MTP head lại quan trọng?

Nếu không có MTP head, các engine suy luận bên thứ ba như vLLM, llama.cpp và SGLang không thể sử dụng speculative decoding tích hợp cho Gemma 4. Người dùng bị giới hạn ở phương pháp sinh autoregressive tiêu chuẩn, chậm hơn đáng kể. Các benchmark cho thấy Gemma 4 chỉ sinh được 11 token/giây trên phần cứng mà các mô hình tương đương đạt hơn 60 token/giây.

Speculative decoding là gì?

Speculative decoding là một kỹ thuật tăng tốc suy luận trong đó một 'mô hình nháp' nhanh đề xuất nhiều token cùng lúc, và mô hình chính xác minh chúng trong một lần forward pass duy nhất. Nếu các token nháp đúng, nhiều bước giải mã được bỏ qua hiệu quả. MTP là một biến thể trong đó các token nháp đến từ các prediction head tích hợp của chính mô hình thay vì từ một mô hình riêng biệt.

Google có phát hành các MTP head cho Gemma 4 không?

Tính đến tháng 4 năm 2026, Google chưa công bố kế hoạch phát hành các MTP prediction head cho trọng số HuggingFace. Chúng hiện chỉ có trong các mô hình xuất qua LiteRT, điều này giới hạn việc sử dụng chúng trong framework suy luận riêng của Google. Cộng đồng tiếp tục yêu cầu việc phát hành này.

Gemma 4 Ra Mắt Mà Không Có Dữ Liệu MTP — Đây Là Lý Do Tại Sao Điều Đó Quan Trọng

Google đã loại bỏ các MTP prediction head khỏi bản phát hành công khai của Gemma 4 trong khi vẫn giữ chúng trong framework LiteRT của mình. Đây là ý nghĩa của điều đó đối với tốc độ suy luận và AI mã nguồn mở.

AI LLM Gemma Open Source

Bắt đầu ngay Đọc thêm

Google phát hành Gemma 4 vào ngày 3 tháng 4 năm 2026 — một họ mô hình open-weight với kết quả benchmark ấn tượng, khả năng đa phương thức và ngữ cảnh lên đến 256K. Trên giấy, đây là một bản phát hành đáng chú ý. Nhưng chỉ trong vài giờ, cộng đồng phát hiện ra thứ đang thiếu: các Multi-Token Prediction head đã bị loại bỏ khỏi trọng số công khai.

Mô hình đã được huấn luyện cùng MTP. Framework LiteRT của chính Google bao gồm các thành phần MTP. Nhưng phiên bản mà mọi người có thể tải xuống từ HuggingFace? Chỉ có sinh autoregressive tiêu chuẩn. Không tăng tốc. Không speculative decoding.

Bài viết này giải thích MTP là gì, tại sao nó quan trọng, và quyết định này có ý nghĩa gì với bất kỳ ai chạy Gemma 4 trên phần cứng của riêng mình.

Gemma 4 Là Gì?

Gemma 4 là họ mô hình open-weight mới nhất của Google DeepMind, phát hành theo giấy phép Apache 2.0. Nó có bốn kích thước:

Mô hình	Tham số	Loại	Tính năng nổi bật
Gemma 4 E2B	2,3 tỷ hiệu dụng	Dense	Hình ảnh + Âm thanh
Gemma 4 E4B	4,5 tỷ hiệu dụng	Dense	Hình ảnh + Âm thanh
Gemma 4 26B-A4B	26 tỷ tổng / 4 tỷ hoạt động	Mixture of Experts	Hình ảnh
Gemma 4 31B	31 tỷ	Dense	Hình ảnh

Các khả năng chính bao gồm hỗ trợ đa phương thức gốc, gọi hàm, đầu ra JSON có cấu trúc, và huấn luyện trên hơn 140 ngôn ngữ. Biến thể 31B xếp hạng #3 trên bảng xếp hạng văn bản LMArena.

Bên trong, Gemma 4 giới thiệu một số cải tiến kiến trúc: các lớp attention cục bộ cửa sổ trượt và toàn cục xen kẽ, RoPE tỷ lệ (p-RoPE), Per-Layer Embeddings (PLE), KV cache chia sẻ, và tối ưu bộ nhớ “Keys equal Values”.

Về mặt con số, đây là một bản phát hành mạnh mẽ. Vấn đề nằm ở những gì không có trong trọng số công khai.

Multi-Token Prediction Là Gì?

Các mô hình ngôn ngữ lớn tiêu chuẩn sinh văn bản mỗi lần một token. Mỗi token yêu cầu một lần forward pass đầy đủ qua mô hình. Token tiếp theo không thể bắt đầu cho đến khi token trước hoàn tất. Đây là giải mã autoregressive, và nó vốn dĩ là tuần tự.

Sơ đồ so sánh giải mã autoregressive tiêu chuẩn (một token mỗi bước) với Multi-Token Prediction (nhiều token mỗi bước)

Multi-Token Prediction (MTP) thay đổi điều này bằng cách thêm các prediction head bổ sung vào mô hình. Thay vì chỉ dự đoán token tiếp theo, mô hình dự đoán các token N+1, N+2, N+3, v.v. — tất cả trong một lần forward pass duy nhất.

Đây là cách nó hoạt động:

Giai đoạn huấn luyện: Các prediction head nhẹ bổ sung được huấn luyện cùng mô hình chính. Mỗi head học cách dự đoán một vị trí tương lai khác nhau (trước 1, trước 2, trước 3, v.v.)
Giai đoạn suy luận: Các head bổ sung sinh các token “nháp” song song. Mô hình chính sau đó xác minh tất cả chúng trong một lần forward pass duy nhất.
Xác minh: Nếu các token nháp khớp với những gì mô hình chính sẽ sinh ra, tất cả đều được chấp nhận cùng lúc — bỏ qua nhiều bước giải mã tuần tự. Nếu một token nháp sai, quá trình sinh quay lại vị trí đó.

Điều này liên quan chặt chẽ đến speculative decoding, nhưng với một lợi thế quan trọng: các token nháp đến từ chính mô hình thay vì yêu cầu một “mô hình nháp” nhỏ hơn riêng biệt.

Sơ đồ kiến trúc cho thấy cách các MTP prediction head gắn vào mô hình transformer chính để sinh nhiều token nháp đồng thời

MTP Nhanh Hơn Bao Nhiêu?

Mức tăng tốc phụ thuộc vào tần suất các token nháp đúng (“tỷ lệ chấp nhận”). DeepSeek V3 đã chứng minh tác động thực tế:

Chỉ số	Giá trị
Độ dài chấp nhận trung bình	2,4 token mỗi bước xác minh
Tăng tốc suy luận	Trung bình 1,8 lần (đỉnh lên đến 2,1 lần)
Ảnh hưởng đến chất lượng đầu ra	Không — tất cả token được xác minh bởi mô hình chính

Tỷ lệ chấp nhận 2,4 có nghĩa là trung bình, mỗi lần forward pass qua mô hình chính tạo ra 2,4 token thay vì 1. Đầu ra hoàn toàn giống với giải mã tiêu chuẩn về mặt toán học — mọi token đều được xác minh. Bạn có cùng chất lượng với tốc độ gần gấp đôi.

Chuyện Gì Đã Xảy Ra Với Gemma 4

Một người dùng HuggingFace (@shadowlilac ) phát hiện rằng gói LiteRT của Google cho Gemma 4 chứa các MTP prediction head và chức năng multi-token prediction. Nhưng trọng số phát hành công khai trên HuggingFace không có gì cả.

Các thành phần MTP đã bị cố tình loại bỏ:

Không có MTP head trong checkpoint
Không có MTP trong cấu hình mô hình
Không có MTP trong forward pass

Sơ đồ cho thấy quá trình huấn luyện Gemma 4 bao gồm MTP head, nhưng bản phát hành HuggingFace công khai đã loại bỏ chúng trong khi phiên bản LiteRT của Google vẫn giữ lại

Giải Thích Của Google

Một kỹ sư Google (@srikanta-221 ) xác nhận đây là hành động có chủ đích:

Mô hình công khai chỉ cung cấp giao diện autoregressive tiêu chuẩn “để tương thích rộng rãi.” Các MTP head được loại khỏi cấu hình mô hình, forward pass và checkpoint. Điều này đảm bảo tương thích với các API của HuggingFace Transformers và duy trì hành vi checkpoint và runtime nhất quán.

Google đóng khung MTP như một “tối ưu hóa khi triển khai” thay vì tính năng cốt lõi của mô hình. Các MTP prediction head chỉ được giữ lại trong các mô hình xuất qua LiteRT — framework suy luận trên thiết bị của chính Google.

Tại Sao Đây Là Vấn Đề

Lời giải thích không đứng vững khi xem xét kỹ:

1. Mô hình đã được huấn luyện với MTP. Khả năng này tồn tại. Loại bỏ nó khỏi bản phát hành là một lựa chọn, không phải giới hạn kỹ thuật.

2. Các engine bên thứ ba không thể triển khai nó. vLLM, llama.cpp, SGLang và các framework suy luận khác không thể sử dụng speculative decoding dựa trên MTP nếu không có các prediction head. Các engine này phục vụ phần lớn các triển khai LLM mã nguồn mở.

3. Người dùng nhận được phiên bản chậm. Không có MTP, Gemma 4 chạy ở tốc độ autoregressive tiêu chuẩn. Khoảng cách hiệu suất đã rõ ràng trong thực tế:

Mô hình	Phần cứng	Tốc độ	Ghi chú
Gemma 4 26B-A4B	5060 Ti 16GB	11 token/giây	Không MTP, giải mã tiêu chuẩn
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ token/giây	Mô hình MoE tương đương
Gemma 4 E4B	RTX 4090 (vLLM)	~9 token/giây	Vấn đề fallback FlashAttention

4. Nó tạo ra sự phụ thuộc vào hệ sinh thái. Framework LiteRT của Google được lợi thế tốc độ. Những người còn lại nhận được mô hình chậm hơn. Đối với một bản phát hành “open-weight” theo Apache 2.0, đây là sự bất đối xứng đáng kể.

Cách Speculative Decoding Hoạt Động (và Tại Sao MTP Tốt Hơn)

Để hiểu tại sao các MTP head bị thiếu lại quan trọng, cần thấy vị trí của MTP trong quá trình phát triển của tối ưu hóa suy luận.

So sánh ba phương pháp speculative decoding: truyền thống (mô hình nháp riêng), speculative-speculative, và MTP (prediction head tích hợp)

Phương pháp 1: Speculative Decoding Truyền Thống

Một “mô hình nháp” nhỏ hơn riêng biệt đề xuất token. Mô hình chính xác minh chúng song song. Nếu các bản nháp đúng, nhiều token được chấp nhận mỗi bước.

Ưu điểm: Hoạt động với bất kỳ cặp mô hình nào
Nhược điểm: Cần duy trì và tải mô hình thứ hai; chất lượng mô hình nháp giới hạn mức tăng tốc; tốn thêm bộ nhớ

Phương pháp 2: MTP (Prediction Head Tích Hợp)

Mô hình chính có các prediction head nhẹ riêng để sinh token nháp. Không cần mô hình riêng biệt.

Ưu điểm: Không cần mô hình bổ sung; tích hợp chặt chẽ hơn nghĩa là tỷ lệ chấp nhận cao hơn; ít tốn bộ nhớ hơn
Nhược điểm: Chỉ hoạt động nếu các prediction head được bao gồm trong bản phát hành

Tại Sao MTP Chiến Thắng

Các MTP prediction head được huấn luyện cùng với mô hình chính. Chúng chia sẻ cùng các biểu diễn nội bộ và học phân phối token của chính mô hình. Điều này thường tạo ra tỷ lệ chấp nhận cao hơn so với mô hình nháp bên ngoài, nghĩa là nhiều token được chấp nhận hơn mỗi bước xác minh và tốc độ sinh nhanh hơn tổng thể.

Các prediction head cũng rất nhỏ — thường chỉ thêm 1-3% vào tổng số tham số của mô hình. Chi phí bộ nhớ là không đáng kể so với việc tải một mô hình nháp riêng biệt.

Tác Động Rộng Hơn

Đây không chỉ là câu chuyện về Gemma 4. Quyết định này tạo tiền lệ cho mức độ “mở” thực sự của các bản phát hành open-weight.

Những gì người dùng mất:

Speculative decoding dựa trên MTP trên bất kỳ engine suy luận bên thứ ba nào
Khả năng tinh chỉnh hoặc thử nghiệm với các MTP head
Ngang bằng hiệu suất với công cụ triển khai riêng của Google

Những gì người dùng vẫn có:

Trọng số mô hình cơ bản (thực sự tốt)
Speculative decoding truyền thống sử dụng mô hình nháp riêng biệt (issue vLLM #38893 theo dõi hỗ trợ Eagle3 cho Gemma 4)
Các kỹ thuật lượng tử hóa và tối ưu hóa tiêu chuẩn

Phản ứng của cộng đồng rất thẳng thắn. Đồng thuận sau 24 giờ là kết quả benchmark của Gemma 4 có tính cạnh tranh — ngang bằng hoặc thua nhẹ Qwen 3.5 — nhưng sản phẩm “chưa hoàn thiện.” Tốc độ, tính ổn định và công cụ hỗ trợ cần cải thiện. Các vấn đề bổ sung bao gồm HuggingFace Transformers ban đầu thiếu hỗ trợ kiến trúc Gemma 4, PEFT không xử lý được các loại lớp mới, và người dùng Mac gặp lỗi crash khi tải các mô hình lớn hơn.

Bạn Có Thể Làm Gì?

Nếu bạn đang đánh giá Gemma 4 để triển khai, đây là các lựa chọn thực tế:

Sử dụng speculative decoding truyền thống. Các mô hình nháp bên ngoài vẫn có thể tăng tốc suy luận Gemma 4. Các framework như vLLM đang thêm hỗ trợ Eagle3 speculative decoding riêng cho Gemma 4. Mức tăng tốc sẽ không bằng MTP tích hợp, nhưng vẫn tốt hơn không có gì.

Cân nhắc các lựa chọn thay thế cho khối lượng công việc ưu tiên tốc độ. Qwen 3.5 cho tốc độ token-per-second tốt hơn đáng kể trên phần cứng tương đương. Nếu tốc độ suy luận là ràng buộc chính của bạn, Qwen hiện cung cấp tỷ lệ tốc độ-chất lượng tốt hơn.

Theo dõi các giải pháp từ cộng đồng. Các bản xuất LiteRT chứa các MTP head. Các nhà nghiên cứu có thể tìm cách trích xuất và gắn lại chúng vào trọng số HuggingFace, mặc dù Google chưa chính thức hỗ trợ hướng đi này.

Phản hồi ý kiến. Các kỹ sư Google đang tích cực theo dõi các chủ đề thảo luận trên HuggingFace. Các yêu cầu kỹ thuật rõ ràng về việc phát hành MTP head có trọng lượng.

Kết Luận

Gemma 4 là một họ mô hình có năng lực với các cải tiến kiến trúc thực sự và kết quả benchmark mạnh mẽ. Quyết định loại bỏ các MTP prediction head khỏi bản phát hành công khai — trong khi vẫn giữ chúng trong framework LiteRT của Google — làm suy yếu chữ “mở” trong open-weight.

MTP không phải là một tối ưu hóa nhỏ. Nó có thể mang lại tăng tốc suy luận 1,5–2 lần mà không ảnh hưởng đến chất lượng đầu ra. Giữ lại nó khỏi trọng số công khai trong khi mô hình rõ ràng được huấn luyện cùng nó tạo ra hệ thống hai tầng: suy luận nhanh cho công cụ của Google, suy luận chậm cho tất cả những người còn lại.

Đối với cộng đồng AI mã nguồn mở, thông điệp rất rõ ràng: hãy kiểm tra những gì thực sự có trong trọng số, không chỉ các benchmark. Giấy phép mở không phải lúc nào cũng có nghĩa là bản phát hành mở.

Được xây dựng với FlowHunt . Cập nhật những phát triển mới nhất về AI mã nguồn mở trên blog của chúng tôi.

Câu hỏi thường gặp

: Multi-Token Prediction là một kỹ thuật trong đó LLM dự đoán nhiều token tương lai trong một lần forward pass thay vì mỗi lần một token. Các prediction head bổ sung được huấn luyện cùng mô hình chính để phác thảo đồng thời các token N+1, N+2, N+3, v.v., sau đó được mô hình chính xác minh song song. Điều này cho phép tăng tốc suy luận 1,5–2 lần mà không ảnh hưởng đến chất lượng đầu ra.
: Gemma 4 được huấn luyện với các MTP prediction head, và chúng có mặt trong bản xuất LiteRT (suy luận trên thiết bị) của Google. Tuy nhiên, các trọng số phát hành công khai trên HuggingFace đã bị cố tình loại bỏ các MTP head. Google cho biết điều này được thực hiện để 'tương thích rộng rãi' với các framework suy luận hiện có.
: Nếu không có MTP head, các engine suy luận bên thứ ba như vLLM, llama.cpp và SGLang không thể sử dụng speculative decoding tích hợp cho Gemma 4. Người dùng bị giới hạn ở phương pháp sinh autoregressive tiêu chuẩn, chậm hơn đáng kể. Các benchmark cho thấy Gemma 4 chỉ sinh được 11 token/giây trên phần cứng mà các mô hình tương đương đạt hơn 60 token/giây.
: Speculative decoding là một kỹ thuật tăng tốc suy luận trong đó một 'mô hình nháp' nhanh đề xuất nhiều token cùng lúc, và mô hình chính xác minh chúng trong một lần forward pass duy nhất. Nếu các token nháp đúng, nhiều bước giải mã được bỏ qua hiệu quả. MTP là một biến thể trong đó các token nháp đến từ các prediction head tích hợp của chính mô hình thay vì từ một mô hình riêng biệt.
: Tính đến tháng 4 năm 2026, Google chưa công bố kế hoạch phát hành các MTP prediction head cho trọng số HuggingFace. Chúng hiện chỉ có trong các mô hình xuất qua LiteRT, điều này giới hạn việc sử dụng chúng trong framework suy luận riêng của Google. Cộng đồng tiếp tục yêu cầu việc phát hành này.

Xây Dựng Quy Trình AI Với Các Mô Hình Tốt Nhất

FlowHunt cho phép bạn xây dựng các pipeline AI tự động sử dụng API đám mây và mô hình mã nguồn mở — với toàn quyền kiểm soát tốc độ, chi phí và chất lượng.

Bắt đầu ngay Đọc thêm

Tìm hiểu thêm

Fine-Tuning Gemma 4 trên Apple Silicon: Có thể thay thế Claude Sonnet để tạo nội dung không?

Chúng tôi đã tinh chỉnh mô hình Gemma 4 31B của Google trên MacBook Pro M3 Max để tạo bài viết thể thao. Đây là cách nó so sánh với Claude Sonnet về chất lượng,...

Apr 6, 2026 16 phút đọc

AI LLM +6

Google Gemini AI Chatbot là gì?

Khám phá Google Gemini là gì, cách hoạt động và so sánh với ChatGPT. Tìm hiểu về khả năng đa phương thức, giá cả và ứng dụng thực tế của Gemini trong năm 2025....

Dec 1, 2025 16 phút đọc

Gemini 3 Flash: Mô hình AI đột phá vượt mặt Pro với chi phí chỉ bằng một phần nhỏ

Khám phá lý do vì sao Gemini 3 Flash của Google đang cách mạng hóa AI với hiệu suất vượt trội, chi phí thấp hơn và tốc độ nhanh hơn—even vượt qua Gemini 3 Pro ở...

Dec 22, 2025 21 phút đọc

AI Models Google Gemini +3

Gemma 4 Ra Mắt Mà Không Có Dữ Liệu MTP — Đây Là Lý Do Tại Sao Điều Đó Quan Trọng

Gemma 4 Là Gì?