Gemma 4 Foi Lançado Sem Dados MTP — Veja Por Que Isso Importa
O Gemma 4 do Google foi lançado sem os cabeçalhos de Multi-Token Prediction, apesar de ter sido treinado com eles. Explicamos o que é MTP, por que é importante ...
Automação de IA
Um experimento prático de fine-tuning do Gemma 4 31B com LoRA no Apple Silicon para gerar artigos de esportes, comparado frente a frente com Claude Sonnet em qualidade, velocidade e custo.
Operamos uma plataforma de dados de esportes que publica relatórios de partidas e resumos de rodadas em nove esportes. Cada artigo foi gerado através de chamadas de API para Claude Sonnet — confiável, de alta qualidade, mas caro em escala. Queríamos saber: um modelo de código aberto, ajustado em nossos próprios dados, poderia produzir artigos de qualidade comparável enquanto executava inteiramente em hardware local?
Este post percorre o experimento completo — desde a preparação de dados até o fine-tuning com LoRA até uma comparação frente a frente — usando o modelo Gemma 4 31B do Google, o framework MLX da Apple e um MacBook Pro M3 Max com 96GB de memória unificada. Também detalhamos a economia do mundo real: quando o treinamento de um modelo personalizado realmente economiza dinheiro em comparação com chamadas de API?
Gemma 4 é a família de modelos de linguagem grandes de peso aberto do Google, lançada em 2025 como sucessora da série Gemma 2. A palavra-chave é peso aberto — ao contrário de modelos proprietários como GPT-4 ou Claude, os pesos do Gemma 4 estão livremente disponíveis para download, ajuste fino e implantação sem taxas de API contínuas.
O modelo vem em vários tamanhos. Usamos a variante de instrução ajustada de 31B parâmetros (google/gemma-4-31B-it), que fica em um ponto ideal entre capacidade e requisitos de hardware. Com precisão fp16 completa, precisa de cerca de 62GB de memória; com quantização de 4 bits, comprime para aproximadamente 16GB, pequeno o suficiente para executar em um laptop com 32GB de RAM.
O que torna o Gemma 4 particularmente interessante para nosso caso de uso:
O trade-off é claro: você abre mão da conveniência plug-and-play de uma chamada de API em troca de controle, privacidade e custos marginais dramaticamente menores em escala.
Nossa plataforma gera centenas de artigos por dia em futebol, basquete, hóquei, NFL, beisebol, rúgbi, vôlei e handebol. Cada artigo custa aproximadamente $0,016 em chamadas de API para Claude Sonnet. Isso se acumula rapidamente — 500 artigos por dia significam $240 por mês, ou $2.880 por ano.
Além do custo, queríamos:
A hipótese: se treinarmos um modelo de 31B parâmetros em 120 artigos “perfeitos” escritos pelo Claude Sonnet, ele deveria aprender a estrutura, tom e convenções específicas do esporte bem o suficiente para produzir artigos autonomamente.
O experimento foi executado em cinco fases:
Fase 1: Seleção de Partidas de Treinamento — Nem todas as partidas fazem bons exemplos de treinamento. Construímos um sistema de pontuação de riqueza favorecendo partidas densas em dados com eventos, estatísticas e contexto de classificação. Selecionamos 100 artigos de partidas e 20 resumos de dia de liga, com diversidade entre tipos de resultados (vitórias em casa, vitórias fora, empates, goleadas, recuperações). Para este experimento inicial, focamos exclusivamente em futebol: 120 exemplos de treinamento no total.
Fase 2: Geração de Artigos de Referência com Claude Sonnet — Os dados JSON de cada partida foram transformados em um prompt de texto estruturado e enviados ao Claude Sonnet com um prompt do sistema definindo a estrutura de artigo em pirâmide invertida: título, parágrafo de abertura com placar, momentos-chave cronológicos, análise de estatísticas, contexto de liga e uma breve perspectiva futura. Cada artigo custou ~$0,016. O conjunto de dados completo de 120 artigos custou menos de $2.
Fase 3: Formatação do Conjunto de Dados — Artigos foram convertidos para o formato de bate-papo do Gemma (<start_of_turn>user / <start_of_turn>model) e divididos 90/10 em 115 exemplos de treinamento e 13 de validação.
Fase 4: Fine-Tuning com LoRA no MLX — É aqui que o Apple Silicon se justifica. O modelo completo de 31B cabe na memória unificada do M3 Max. Usamos LoRA para inserir pequenas matrizes treináveis em 16 camadas, adicionando apenas 16,3 milhões de parâmetros treináveis — 0,053% do total.
| Parâmetro | Valor |
|---|---|
| Modelo base | google/gemma-4-31B-it |
| Parâmetros treináveis | 16,3M (0,053% de 31B) |
| Exemplos de treinamento | 115 |
| Épocas | 3 |
| Total de iterações | 345 |
| Tamanho do lote | 1 |
| Taxa de aprendizado | 1e-4 |
| Pico de uso de memória | 76,4 GB |
| Tempo de treinamento | ~2,5 horas |
A perda de validação caiu de 6.614 para 1.224 ao longo de 345 iterações, com a melhoria mais acentuada nos primeiros 100 passos.
Fase 5: Quantização — Aplicamos quantização de 4 bits usando MLX, comprimindo o modelo de 62GB para ~16GB. Isso tornou a inferência 2,6x mais rápida mantendo qualidade aceitável.
Comparamos cinco artigos gerados a partir de dados de partidas idênticos em todas as três configurações.
| Configuração | Palavras Médias | Tempo Médio | Qualidade |
|---|---|---|---|
| Claude Sonnet (API) | 402 | ~2s | Melhor fluxo narrativo, zero alucinações |
| Gemma 4 31B fp16 + LoRA | 391 | 207s | Estrutura forte, repetição ocasional |
| Gemma 4 31B 4-bit + LoRA | 425 | 80s | Boa estrutura, erros factuais menores ocasionais |
Onde o Gemma 4 ajustado se destaca:
Onde Sonnet ainda lidera:
O treinamento LoRA valeu a pena? Absolutamente. Sem LoRA, o modelo base Gemma 4 produz saída repleta de tokens de pensamento interno (<|channel>thought), formatação markdown e redação de esportes genérica. O modelo ajustado produz texto limpo e pronto para produção em nosso estilo editorial exato. O treinamento LoRA completo custou $2 em chamadas de API e 2,5 horas de computação.
O MacBook Pro M3 Max serviu seu propósito como plataforma de desenvolvimento e experimentação. Provou que fine-tuning e inferência em um modelo de 31B é tecnicamente viável no Apple Silicon. Mas nunca implantaríamos cargas de trabalho de produção em um laptop local.
Para implantação de produção real, uma instância de GPU em nuvem é a escolha certa. Aqui está como uma implantação realista se parece na AWS.
O modelo quantizado Gemma 4 de 4 bits (16GB) se encaixa confortavelmente em uma única GPU A10G. A velocidade de inferência no A10G é dramaticamente mais rápida que o Apple Silicon — aproximadamente 15 segundos por artigo vs. 80 segundos no M3 Max.
| Métrica | Valor |
|---|---|
| Tipo de instância | g5.xlarge |
| GPU | NVIDIA A10G (24GB VRAM) |
| Preço sob demanda | $1,006/hr |
| Preço spot (típico) | ~$0,40/hr |
| Velocidade de inferência | ~15 segundos/artigo |
| Rendimento | ~240 artigos/hora |
| Custo por artigo (sob demanda) | $0,0042 |
| Custo por artigo (spot) | $0,0017 |
| Abordagem | Custo/Artigo | Custo Diário | Custo Mensal | Custo Anual |
|---|---|---|---|---|
| API Claude Sonnet | $0,016 | $8,00 | $240 | $2.880 |
| AWS g5.xlarge (sob demanda) | $0,0042 | $2,10 | $63 | $756 |
| AWS g5.xlarge (spot) | $0,0017 | $0,85 | $25,50 | $306 |
| M3 Max Local (eletricidade) | $0,0007 | $0,35 | $10,50 | $126 |
A vantagem da GPU é clara: redução de 74% de custo em instâncias sob demanda, 89% em instâncias spot, em comparação com chamadas de API do Sonnet — com velocidades de geração apenas 7-8x mais lentas que uma chamada de API em vez de 40x mais lentas no M3 Max.
O M3 Max local tem o menor custo marginal ($0,0007/artigo em eletricidade) mas o maior investimento inicial. Em ~45 artigos por hora (quantizado em 4 bits), um único M3 Max produz aproximadamente 1.080 artigos por dia executando 24/7.
| Fator de Custo | Valor |
|---|---|
| Custo de hardware | ~$4.000 (MacBook Pro M3 Max 96GB) |
| Consumo de energia | ~200W sob carga |
| Custo de eletricidade | ~$0,72/dia (24h contínuo) |
| Rendimento | ~1.080 artigos/dia |
| Equilíbrio vs. Sonnet | ~260.000 artigos (~8 meses em 500/dia) |
Quando faz sentido local? Para empresas que precisam de 100% privacidade de dados e não podem usar modelos baseados em nuvem — seja por requisitos regulatórios, obrigações contratuais ou operação em domínios sensíveis — uma implantação local elimina toda transmissão de dados externa. Os dados de partidas, os pesos do modelo e o conteúdo gerado nunca saem das premissas da empresa. Não se trata de otimização de custo; trata-se de conformidade e controle. Indústrias como defesa, saúde, finanças e jurídica podem achar que este é o único modelo de implantação aceitável.
A pergunta crítica: em que volume o investimento em fine-tuning se equilibra com apenas usar Claude Sonnet para tudo?
| Item | Custo |
|---|---|
| Geração de dados de treinamento (120 artigos via Sonnet) | $2 |
| Dados de treinamento de 9 esportes completos (960 artigos) | $16 |
| Tempo do desenvolvedor para pipeline (~20 horas) | ~$500 |
| Tempo de GPU da AWS para treinamento (opcional) | ~$5 |
| Investimento único total | ~$523 |
A economia por artigo depende de sua implantação:
| Implantação | Custo/Artigo | Economia vs. Sonnet | Equilíbrio (artigos) | Equilíbrio em 500/dia |
|---|---|---|---|---|
| AWS sob demanda | $0,0042 | $0,0118 | ~44.300 | ~89 dias (~3 meses) |
| AWS spot | $0,0017 | $0,0143 | ~36.600 | ~73 dias (~2,5 meses) |
| M3 Max Local | $0,0007 | $0,0153 | ~34.200 | ~68 dias (~2 meses) |
Se excluirmos o tempo do desenvolvedor (tratando-o como um custo irrecuperável pela experiência de aprendizado) e contarmos apenas custos de infraestrutura dura ($21):
| Implantação | Equilíbrio (artigos) | Equilíbrio em 500/dia |
|---|---|---|
| AWS sob demanda | ~1.780 | 3,5 dias |
| AWS spot | ~1.470 | 3 dias |
| M3 Max Local | ~1.370 | 2,7 dias |
A matemática é direta: se você gera mais de ~1.500 artigos, o modelo personalizado se paga em custos duro sozinho. Incluindo o tempo do desenvolvedor empurra o equilíbrio para aproximadamente 35.000-45.000 artigos, ou cerca de 2,5-3 meses em 500 artigos por dia.
Em escala (500+ artigos/dia), a economia anual é substancial:
| Abordagem | Custo Anual | Economia Anual vs. Sonnet |
|---|---|---|
| Claude Sonnet | $2.880 | — |
| AWS g5 sob demanda | $756 + $523 único = $1.279 (ano 1) | $1.601 |
| AWS g5 spot | $306 + $523 único = $829 (ano 1) | $2.051 |
| M3 Max Local | $126 + $4.523 (hardware + configuração) = $4.649 (ano 1) | -$1.769 (ano 1), +$2.754 (ano 2+) |
A abordagem mais prática é híbrida: use o modelo Gemma 4 ajustado para conteúdo rotineiro (a maior parte do volume) e reserve Claude Sonnet para:
Isso oferece os benefícios de custo de inferência auto-hospedada em 80-90% do seu volume enquanto mantém a qualidade superior do Sonnet disponível para os casos extremos que mais importam.
LoRA é notavelmente eficiente para transferência de estilo. Com apenas 115 exemplos de treinamento, o modelo aprendeu nosso formato exato de artigo, tom e convenções específicas do esporte. A estrutura de pirâmide invertida, estilo de verbo ativo e abordagem baseada em dados foram todos transferidos perfeitamente.
Apple Silicon é uma plataforma de treinamento viável para modelos de 31B. O M3 Max manipulou o modelo completo com gradient checkpointing, atingindo pico em 76,4GB. O treinamento foi concluído em 2,5 horas — rápido o suficiente para iterar em hiperparâmetros em um único dia de trabalho.
Dados de entrada estruturados importam enormemente. A qualidade do formatador de dados impacta diretamente a qualidade do artigo. Investir em extração de dados abrangente traz dividendos em ambos os caminhos de API e auto-hospedados.
Implantação de produção pertence à nuvem (para a maioria das equipes). O M3 Max provou o conceito. Instâncias de GPU da AWS entregam a velocidade e confiabilidade necessárias para cargas de trabalho de produção a 74-89% menos custo que chamadas de API. Máquinas locais permanecem a escolha certa apenas quando requisitos de privacidade de dados descartam toda infraestrutura externa.
A matemática de equilíbrio favorece modelos personalizados em escala moderada. Qualquer equipe gerando mais de ~1.500 artigos recuperará os custos duro do fine-tuning quase imediatamente. A pergunta real não é se modelos personalizados economizam dinheiro — é se sua equipe tem a capacidade de engenharia para construir e manter o pipeline.
Fine-tuning do Gemma 4 31B produziu um gerador de conteúdo que corresponde ao Claude Sonnet em qualidade de título, estrutura de artigo e precisão factual — enquanto reduz custos por artigo em 74-89% em infraestrutura em nuvem e habilita implantação totalmente privada e no local para organizações que a exigem.
O MacBook M3 Max serviu puramente como banco de testes para este experimento. Implantação de produção real seria executada em instâncias de GPU da AWS (g5.xlarge com A10G), onde o modelo quantizado gera artigos em aproximadamente 15 segundos em $0,0042 cada — em comparação com $0,016 por chamada de API Sonnet.
Para empresas que precisam de privacidade completa de dados e não podem usar serviços de IA baseados em nuvem, uma máquina local executando o modelo quantizado é uma opção legítima. Em ~45 artigos por hora, uma única estação de trabalho manipula volumes moderados com zero exposição de dados externa. O investimento em hardware se paga em cerca de 8 meses em comparação com custos de API.
A economia é clara: em 500 artigos por dia, um modelo personalizado ajustado em instâncias spot da AWS economiza mais de $2.000 por ano em comparação com chamadas de API do Claude Sonnet. O ponto de equilíbrio chega em menos de 3 meses. Para equipes já executando geração de conteúdo em escala, a combinação de modelos de peso aberto, fine-tuning com LoRA e hardware de GPU comum representa uma alternativa credível e econômica para APIs proprietárias.
Construído com FlowHunt . O pipeline completo — desde preparação de dados até fine-tuning até inferência — está disponível como parte do nosso kit de ferramentas da plataforma de dados de esportes.
Viktor Zeman é co-proprietário da QualityUnit. Mesmo após 20 anos liderando a empresa, ele continua sendo principalmente um engenheiro de software, especializado em IA, SEO programático e desenvolvimento backend. Ele contribuiu para inúmeros projetos, incluindo LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab e muitos outros.

O Gemma 4 do Google foi lançado sem os cabeçalhos de Multi-Token Prediction, apesar de ter sido treinado com eles. Explicamos o que é MTP, por que é importante ...

Descubra por que o Gemini 3 Flash do Google está revolucionando a IA com desempenho superior, custos menores e velocidades mais rápidas — superando até mesmo o ...

Descubra os custos associados ao treinamento e implantação de Modelos de Linguagem de Grande Porte (LLMs) como GPT-3 e GPT-4, incluindo despesas com computação,...
Consentimento de Cookies
Usamos cookies para melhorar sua experiência de navegação e analisar nosso tráfego. See our privacy policy.