Gemma 4 er Googles open-weight large language model-familie udgivet i 2025. Varianten med 31B-parametre, som blev brugt i dette eksperiment, er instruktionsjusteret og kan køre på forbrugerhardware med tilstrækkelig hukommelse. I modsætning til proprietære modeller kan Gemma 4 fine-tuning og implementeres lokalt uden API-omkostninger.

Kan du fine-tune en 31B-model på en MacBook?

Ja. Ved hjælp af Apples MLX-framework og LoRA (Low-Rank Adaptation) kan du fine-tune en 31B-model på en MacBook Pro med 96GB unified memory. LoRA træner kun 16,3 millioner parametre (0,053% af totalen), hvilket gør det hukommelseseffektivt. Træning af 120 eksempler tog omkring 2,5 timer på en M3 Max.

Hvordan sammenlignes Gemma 4 med Claude Sonnet til indholdsgeneration?

I vores direkte test matchede den fine-tunede Gemma 4 Claude Sonnet hvad angår overskriftkvalitet, artikelstruktur og faktisk nøjagtighed. Sonnet fører stadig inden for narrativ flow, faktisk præcision (nul hallucinationer) og konsistens. Gemma 4-artikler var i gennemsnit omkring 10% kortere.

Hvor mange artikler skal du generere, før en brugerdefineret model betaler sig i forhold til at bruge Sonnet?

Med AWS GPU-implementering er break-even-punktet cirka 38.500 artikler, når man tager højde for udvikleringsomkostninger (~$500 i alt). Ved 500 artikler pr. dag er det omkring 2,5 måneder. Hvis du kun tæller hårde infrastrukturomkostninger (ingen udviklertid), kommer break-even på blot 3 dage.

Er lokal inferens praktisk til produktionsbrug?

Lokal inferens på en MacBook M3 Max producerer omkring 45 artikler i timen (4-bit kvantiseret). Dette er levedygtigt for lavvolumen-use cases eller virksomheder, der kræver fuldstændig dataprivatliv. Til højtvolumen-produktion genererer en cloud GPU som AWS A10G cirka 240 artikler i timen til en brøkdel af API-omkostningerne.

Fine-Tuning Gemma 4 på Apple Silicon: Kan det erstatte Claude Sonnet til indholdsgeneration?

Et praktisk eksperiment med fine-tuning af Gemma 4 31B med LoRA på Apple Silicon til at generere sportartikler, sammenlignet direkte med Claude Sonnet på kvalitet, hastighed og omkostninger.

AI LLM Fine-Tuning Gemma

Kom i gang Læs mere

Vi driver en sportsdataplattform, der udgiver kamprapporter og ligaopsummeringer på tværs af ni sportsgrene. Hver artikel er blevet genereret gennem API-kald til Claude Sonnet — pålidelig, høj kvalitet, men dyr i stor skala. Vi ville gerne vide: kunne en open source-model, fine-tunet på vores egne data, producere artikler af sammenlignelig kvalitet, mens den kørte helt på lokal hardware?

Dette indlæg gennemgår det fulde eksperiment — fra dataforberedelse til LoRA fine-tuning til en direkte sammenligning — ved hjælp af Googles Gemma 4 31B-model, Apples MLX-framework og en MacBook Pro M3 Max med 96GB unified memory. Vi bryder også ned på den virkelige økonomi: hvornår sparer det faktisk penge at træne en brugerdefineret model sammenlignet med API-kald?

Hvad er Gemma 4?

Gemma 4 er Googles open-weight large language model-familie, udgivet i 2025 som efterfølger til Gemma 2-serien. Nøgleordet er open-weight — i modsætning til proprietære modeller som GPT-4 eller Claude er Gemma 4’s vægte frit tilgængelige til download, fine-tuning og implementering uden løbende API-gebyrer.

Modellen kommer i flere størrelser. Vi brugte 31B-parameter instruktionsjusteret variant (google/gemma-4-31B-it), som ligger i det søde spot mellem kapabilitet og hardwarekrav. Med fuld fp16-præcision skal den omkring 62GB hukommelse; med 4-bit kvantisering komprimeres den til omkring 16GB, lille nok til at køre på en bærbar computer med 32GB RAM.

Hvad der gør Gemma 4 særlig interessant for vores use case:

Ingen API-omkostninger — når den først er downloadet, er inferens gratis (minus elektricitet)
Fine-tunable — LoRA-adaptere lader dig specialisere modellen på dit domæne med minimal beregning
Kører på forbrugerhardware — Apple Silicons unified memory-arkitektur gør det muligt at træne og køre en 31B-model på en MacBook Pro
Kommercielt venlig licens — Gemmas vilkår tillader kommerciel brug, hvilket gør det levedygtigt for produktionsworkloads

Afvejningen er klar: du opgiver plug-and-play-bekvemmeligheden ved et API-kald til gengæld for kontrol, privatliv og dramatisk lavere marginale omkostninger i stor skala.

Problemet

Vores platform genererer hundredvis af artikler dagligt på tværs af fodbold, basketball, ishockey, NFL, baseball, rugby, volleyball og håndbold. Hver artikel koster omkring $0,016 i API-kald til Claude Sonnet. Det summerer sig hurtigt — 500 artikler dagligt betyder $240 pr. måned, eller $2.880 pr. år.

Ud over omkostninger ønskede vi:

Kontrol over modellen — mulighed for at fine-tune på vores nøjagtige redaktionelle stil i stedet for at spørge en generel model om det
Offline inferens — ingen afhængighed af ekstern API-tilgængelighed
Dataprivatliv — kampdata forlader aldrig vores infrastruktur

Hypotesen: hvis vi træner en 31B-parameter-model på 120 “perfekte” artikler skrevet af Claude Sonnet, skulle den lære strukturen, tonen og sportspecifikke konventioner godt nok til at producere artikler autonomt.

Rørledningen

Eksperimentet kørte i fem faser:

Fase 1: Valg af træningskampe — Ikke alle kampe gør gode træningseksempler. Vi byggede et righedsscoringssystem, der favoriserede datadense kampe med begivenheder, statistik og kontekst for stilling. Vi valgte 100 kampartikler og 20 ligadagsopsummeringer med mangfoldighed på tværs af resultattyper (hjemmesejre, udebortesejre, uafgjort, nedsmeltninger, comebacks). For dette indledende eksperiment fokuserede vi udelukkende på fodbold: 120 træningseksempler i alt.

Fase 2: Generering af referenceartikler med Claude Sonnet — Hver kamps JSON-data blev transformeret til en struktureret tekstprompt og sendt til Claude Sonnet med en systemprompt, der definerede den omvendte pyramideartikkelstruktur: overskrift, ledeparagraf med score, kronologiske nøglemoment, statistikanalyse, ligakontekst og et kort fremtidsudsyn. Hver artikel kostede ~$0,016. Det fulde 120-artikel datasæt kostede under $2.

Fase 3: Datasætformatering — Artikler blev konverteret til Gemmas chatformat (<start_of_turn>user / <start_of_turn>model) og opdelt 90/10 i 115 trænings- og 13 valideringseksempler.

Fase 4: Fine-Tuning med LoRA på MLX — Det er her Apple Silicon beviser sin værd. Hele 31B-modellen passer i unified memory på M3 Max. Vi brugte LoRA til at indsætte små trænbare matricer i 16 lag, tilføjede blot 16,3 millioner trænbare parametre — 0,053% af totalen.

Parameter	Værdi
Basismodel	google/gemma-4-31B-it
Trænbare parametre	16,3M (0,053% af 31B)
Træningseksempler	115
Epoker	3
Samlede iterationer	345
Batchstørrelse	1
Læringsrate	1e-4
Spidsmemorieforbrug	76,4 GB
Træningtid	~2,5 timer

Valideringsverlust faldt fra 6,614 til 1,224 over 345 iterationer, med den stejleste forbedring i de første 100 trin.

Fase 5: Kvantisering — Vi anvendte 4-bit kvantisering ved hjælp af MLX, komprimerede modellen fra 62GB til ~16GB. Dette gjorde inferensen 2,6 gange hurtigere, samtidig med at kvaliteten blev opretholdt acceptabelt.

Resultater: Gemma 4 vs. Claude Sonnet

Vi sammenlignede fem artikler genereret fra identiske kampdata på tværs af alle tre konfigurationer.

Konfiguration	Gennemsnitlige ord	Gennemsnitlig tid	Kvalitet
Claude Sonnet (API)	402	~2s	Bedste narrativ flow, nul hallucinationer
Gemma 4 31B fp16 + LoRA	391	207s	Stærk struktur, lejlighedsvis gentagelse
Gemma 4 31B 4-bit + LoRA	425	80s	God struktur, lejlighedsvis mindre faktiske fejl

Hvor den fine-tunede Gemma 4 udmærker sig:

Overskrifter er konsekvent stærke — i ét tilfælde ord-for-ord identisk med Sonnets output
Artikelstruktur følger det omvendte pyramidemønster perfekt
Kampfakta (holdnavne, score, målscorer, minutter) rapporteres nøjagtigt i de fleste tilfælde

Hvor Sonnet stadig fører:

Narrativ flow — Sonnets artikler læses mere naturligt med bedre afsnitsovergange
Faktisk præcision — nul hallucinationer eller forkert tilskrivning i testsættet
Konsistens — producerer pålideligt artikler i målordantallet med ensartet kvalitet

Var LoRA-træning det værd? Absolut. Uden LoRA producerer basismodellen Gemma 4 output fyldt med interne tænketokens (<|channel>thought), markdown-formatering og generisk sportsskrivning. Den fine-tunede model udlæser rent, produktionsklar tekst i vores nøjagtige redaktionelle stil. Hele LoRA-træningen kostede $2 i API-kald og 2,5 timer beregning.

Vigtig bemærkning: M3 Max var en testbænk, ikke et produktionsmål

MacBook Pro M3 Max tjente sit formål som udviklings- og eksperimentplatform. Det beviste, at fine-tuning og inferens på en 31B-model er teknisk mulig på Apple Silicon. Men vi ville aldrig implementere produktionsworkloads på en lokal bærbar computer.

Til faktisk produktionsimplementering er en cloud GPU-instans det rigtige valg. Her er hvad en realistisk implementering ser ud på AWS.

Omkostningsanalyse: Cloud GPU vs. Sonnet API vs. lokal maskine

AWS GPU-implementering (g5.xlarge — NVIDIA A10G, 24GB VRAM)

Den kvantiserede 4-bit Gemma 4-model (16GB) passer komfortabelt på en enkelt A10G GPU. Inferenshastighed på A10G er dramatisk hurtigere end Apple Silicon — cirka 15 sekunder pr. artikel vs. 80 sekunder på M3 Max.

Metrik	Værdi
Instanstype	g5.xlarge
GPU	NVIDIA A10G (24GB VRAM)
On-demand pris	$1,006/time
Spot pris (typisk)	~$0,40/time
Inferenshastighed	~15 sekunder/artikel
Gennemstrømning	~240 artikler/time
Omkostning pr. artikel (on-demand)	$0,0042
Omkostning pr. artikel (spot)	$0,0017

Side-by-side månedlig omkostningssammenligning (500 artikler/dag)

Tilgang	Omkostning/artikel	Daglige omkostninger	Månedlige omkostninger	Årlige omkostninger
Claude Sonnet API	$0,016	$8,00	$240	$2.880
AWS g5.xlarge (on-demand)	$0,0042	$2,10	$63	$756
AWS g5.xlarge (spot)	$0,0017	$0,85	$25,50	$306
Lokal M3 Max (elektricitet)	$0,0007	$0,35	$10,50	$126

GPU-fordelen er klar: 74% omkostningsreduktion på on-demand-instanser, 89% på spot-instanser, sammenlignet med Sonnet API-kald — med generationshastigheder kun 7-8 gange langsommere end et API-kald i stedet for 40 gange langsommere på M3 Max.

Lokal maskinøkonomi

Den lokale M3 Max har de laveste marginale omkostninger ($0,0007/artikel i elektricitet), men den højeste forhåndsudgift. Ved omkring 45 artikler i timen (4-bit kvantiseret) producerer en enkelt M3 Max omkring 1.080 artikler dagligt ved at køre 24/7.

Omkostningsfaktor	Værdi
Hardwareomkostning	~$4.000 (MacBook Pro M3 Max 96GB)
Strømforbrug	~200W under belastning
Elektricitetsomkostning	~$0,72/dag (24 timer kontinuerlig)
Gennemstrømning	~1.080 artikler/dag
Break-even vs. Sonnet	~260.000 artikler (~8 måneder ved 500/dag)

Hvornår giver lokal mening? For virksomheder, der har brug for 100% dataprivatliv og ikke kan bruge cloud-baserede modeller — uanset om det skyldes regulatoriske krav, kontraktlige forpligtelser eller drift i sensitive domæner — eliminerer en lokal implementering al ekstern dataoverførsel. Kampdata, modelværter og genereret indhold forlader aldrig virksomhedens lokaler. Dette handler ikke om omkostningsoptimering; det handler om overholdelse og kontrol. Industrier som forsvar, sundhedsvæsen, finans og jura kan finde dette det eneste acceptable implementeringsmodel.

Hvornår betaler en brugerdefineret model sig?

Det kritiske spørgsmål: ved hvilken mængde bryder investeringen i fine-tuning lige ud sammenlignet med blot at bruge Claude Sonnet til alt?

Engangsomkostninger for brugerdefineret modelrørledning

Vare	Omkostning
Træningsdatagenerering (120 artikler via Sonnet)	$2
Fuld 9-sport træningsdata (960 artikler)	$16
Udviklertid til rørledning (~20 timer)	~$500
AWS GPU-tid til træning (valgfrit)	~$5
Samlet engangsudgift	~$523

Break-Even-beregning

Besparelsen pr. artikel afhænger af din implementering:

Implementering	Omkostning/artikel	Besparelser vs. Sonnet	Break-Even (artikler)	Break-Even ved 500/dag
AWS on-demand	$0,0042	$0,0118	~44.300	~89 dage (~3 måneder)
AWS spot	$0,0017	$0,0143	~36.600	~73 dage (~2,5 måneder)
Lokal M3 Max	$0,0007	$0,0153	~34.200	~68 dage (~2 måneder)

Hvis vi udelukker udviklertid (behandler det som en ubrugt omkostning for læringsoplevelsen) og kun tæller hårde infrastrukturomkostninger ($21):

Implementering	Break-Even (artikler)	Break-Even ved 500/dag
AWS on-demand	~1.780	3,5 dage
AWS spot	~1.470	3 dage
Lokal M3 Max	~1.370	2,7 dage

Matematikken er ligetil: hvis du genererer mere end ~1.500 artikler, betaler den brugerdefinerede model sig selv i hårde omkostninger alene. Inklusive udviklertid skubber break-even til omkring 35.000-45.000 artikler, eller omkring 2,5-3 måneder ved 500 artikler dagligt.

I stor skala (500+ artikler/dag) er årlige besparelser betydelige:

Tilgang	Årlige omkostninger	Årlige besparelser vs. Sonnet
Claude Sonnet	$2.880	—
AWS g5 on-demand	$756 + $523 engangsudgift = $1.279 (år 1)	$1.601
AWS g5 spot	$306 + $523 engangsudgift = $829 (år 1)	$2.051
Lokal M3 Max	$126 + $4.523 (hardware + opsætning) = $4.649 (år 1)	-$1.769 (år 1), +$2.754 (år 2+)

Den hybride strategi

Den mest praktiske tilgang er hybrid: brug den fine-tunede Gemma 4-model til rutinemæssigt indhold (størstedelen af mængden) og reserver Claude Sonnet til:

Komplekse artikler kræver dybere analytisk ræsonnement
Usædvanlige situationer, hvor modellen ikke har træningsdata
Nye sportsgrene eller indholdtyper før fine-tuning-data eksisterer
Kvalitetskritiske stykker, hvor nul hallucinationsrisiko er vigtig

Dette giver dig omkostningsfordelene ved selvhostet inferens på 80-90% af din mængde, samtidig med at du holder Sonnets overlegne kvalitet tilgængelig for de kanttilfælde, der betyder mest.

Hvad vi lærte

LoRA er bemærkelsesværdigt effektivt til stiloverdragelse. Med kun 115 træningseksempler lærte modellen vores nøjagtige artikelformat, tone og sportspecifikke konventioner. Den omvendte pyramidestruktur, aktivverbstil og data-grundlagt tilgang blev alle overført rent.

Apple Silicon er en levedygtig træningsplatform til 31B-modeller. M3 Max håndterede hele modellen med gradientkontrolpunkt, der toppede ved 76,4GB. Træning blev afsluttet på 2,5 timer — hurtigt nok til at iterere på hyperparametre inden for en enkelt arbejdsdag.

Strukturerede inputdata betyder enormt. Kvaliteten af dataformattøren påvirker direkte artikelkvaliteten. Investering i omfattende dataekstraktion giver udbytte på både API- og selvhostede stier.

Produktionsimplementering hører hjemme i skyen (for de fleste teams). M3 Max beviste konceptet. AWS GPU-instanser leverer den hastighed og pålidelighed, der er nødvendig for produktionsworkloads med 74-89% mindre omkostninger end API-kald. Lokale maskiner forbliver det rigtige valg kun, når dataprivatkrav udelukker al ekstern infrastruktur.

Break-even-matematikken favoriserer brugerdefinerede modeller i moderat skala. Ethvert team, der genererer mere end ~1.500 artikler, vil gendanne de hårde omkostninger ved fine-tuning næsten øjeblikkeligt. Det rigtige spørgsmål er ikke, om brugerdefinerede modeller sparer penge — det er, om dit team har ingeniørkapacitet til at bygge og vedligeholde rørledningen.

Konklusion

Fine-tuning af Gemma 4 31B producerede en indholdssgenerator, der matcher Claude Sonnet i overskriftkvalitet, artikelstruktur og faktisk nøjagtighed — samtidig med at per-artikel-omkostningerne reduceres med 74-89% på cloud-infrastruktur og muliggør fuldt privat, on-premise-implementering for organisationer, der kræver det.

MacBook M3 Max tjente rent som en testbænk til dette eksperiment. Faktisk produktionsimplementering ville køre på AWS GPU-instanser (g5.xlarge med A10G), hvor den kvantiserede model genererer artikler på omkring 15 sekunder for $0,0042 hver — sammenlignet med $0,016 pr. Sonnet API-kald.

For virksomheder, der har brug for fuldstændig dataprivatliv og ikke kan bruge cloud-baserede AI-tjenester, er en lokal maskine, der kører den kvantiserede model, en legitim mulighed. Ved omkring 45 artikler i timen håndterer en enkelt arbejdsstation moderate mængder med nul ekstern datablotlæggelse. Hardwareinvesteringen betaler sig selv på omkring 8 måneder sammenlignet med API-omkostninger.

Økonomien er klar: ved 500 artikler dagligt sparer en brugerdefineret fine-tunet model på AWS spot-instanser over $2.000 pr. år sammenlignet med Claude Sonnet API-kald. Break-even-punktet ankommer på under 3 måneder. For teams, der allerede kører indholdsgeneration i stor skala, repræsenterer kombinationen af open-weight-modeller, LoRA fine-tuning og commodity GPU-hardware et troværdigt, omkostningseffektivt alternativ til proprietære API’er.

Bygget med FlowHunt . Den komplette rørledning — fra dataforberedelse gennem fine-tuning til inferens — er tilgængelig som en del af vores sports dataplattforms toolkit.

Ofte stillede spørgsmål

: Gemma 4 er Googles open-weight large language model-familie udgivet i 2025. Varianten med 31B-parametre, som blev brugt i dette eksperiment, er instruktionsjusteret og kan køre på forbrugerhardware med tilstrækkelig hukommelse. I modsætning til proprietære modeller kan Gemma 4 fine-tuning og implementeres lokalt uden API-omkostninger.
: Ja. Ved hjælp af Apples MLX-framework og LoRA (Low-Rank Adaptation) kan du fine-tune en 31B-model på en MacBook Pro med 96GB unified memory. LoRA træner kun 16,3 millioner parametre (0,053% af totalen), hvilket gør det hukommelseseffektivt. Træning af 120 eksempler tog omkring 2,5 timer på en M3 Max.
: I vores direkte test matchede den fine-tunede Gemma 4 Claude Sonnet hvad angår overskriftkvalitet, artikelstruktur og faktisk nøjagtighed. Sonnet fører stadig inden for narrativ flow, faktisk præcision (nul hallucinationer) og konsistens. Gemma 4-artikler var i gennemsnit omkring 10% kortere.
: Med AWS GPU-implementering er break-even-punktet cirka 38.500 artikler, når man tager højde for udvikleringsomkostninger (~$500 i alt). Ved 500 artikler pr. dag er det omkring 2,5 måneder. Hvis du kun tæller hårde infrastrukturomkostninger (ingen udviklertid), kommer break-even på blot 3 dage.
: Lokal inferens på en MacBook M3 Max producerer omkring 45 artikler i timen (4-bit kvantiseret). Dette er levedygtigt for lavvolumen-use cases eller virksomheder, der kræver fuldstændig dataprivatliv. Til højtvolumen-produktion genererer en cloud GPU som AWS A10G cirka 240 artikler i timen til en brøkdel af API-omkostningerne.

Byg AI-drevne indholdsrørledninger

FlowHunt hjælper dig med at bygge automatiserede indholdsgenereringsarbejdsgange ved hjælp af de bedste AI-modeller — uanset om det er cloud-API'er eller selvhostede open source-modeller.

Kom i gang Læs mere

Lær mere

Large Language Model Meta AI (LLaMA)

Large Language Model Meta AI (LLaMA) er en avanceret model til naturlig sprogbehandling udviklet af Meta. Med op til 65 milliarder parametre udmærker LLaMA sig ...

May 30, 2025 2 min læsning

AI Language Model +6

AI-agenter: Sådan tænker GPT 4o

Udforsk tankeprocesserne hos AI-agenter i denne omfattende evaluering af GPT-4o. Opdag, hvordan den præsterer på opgaver som indholdsgenerering, problemløsning ...

May 30, 2025 7 min læsning

AI GPT-4o +6

KNIME

KNIME (Konstanz Information Miner) er en kraftfuld open-source dataanalyseplatform, der tilbyder visuelle workflows, problemfri dataintegration, avanceret analy...

May 30, 2025 8 min læsning

KNIME Data Analytics +5