
Large Language Model Meta AI (LLaMA)
Large Language Model Meta AI (LLaMA) er en avanceret model til naturlig sprogbehandling udviklet af Meta. Med op til 65 milliarder parametre udmærker LLaMA sig ...
Et praktisk eksperiment med fine-tuning af Gemma 4 31B med LoRA på Apple Silicon til at generere sportartikler, sammenlignet direkte med Claude Sonnet på kvalitet, hastighed og omkostninger.
Vi driver en sportsdataplattform, der udgiver kamprapporter og ligaopsummeringer på tværs af ni sportsgrene. Hver artikel er blevet genereret gennem API-kald til Claude Sonnet — pålidelig, høj kvalitet, men dyr i stor skala. Vi ville gerne vide: kunne en open source-model, fine-tunet på vores egne data, producere artikler af sammenlignelig kvalitet, mens den kørte helt på lokal hardware?
Dette indlæg gennemgår det fulde eksperiment — fra dataforberedelse til LoRA fine-tuning til en direkte sammenligning — ved hjælp af Googles Gemma 4 31B-model, Apples MLX-framework og en MacBook Pro M3 Max med 96GB unified memory. Vi bryder også ned på den virkelige økonomi: hvornår sparer det faktisk penge at træne en brugerdefineret model sammenlignet med API-kald?
Gemma 4 er Googles open-weight large language model-familie, udgivet i 2025 som efterfølger til Gemma 2-serien. Nøgleordet er open-weight — i modsætning til proprietære modeller som GPT-4 eller Claude er Gemma 4’s vægte frit tilgængelige til download, fine-tuning og implementering uden løbende API-gebyrer.
Modellen kommer i flere størrelser. Vi brugte 31B-parameter instruktionsjusteret variant (google/gemma-4-31B-it), som ligger i det søde spot mellem kapabilitet og hardwarekrav. Med fuld fp16-præcision skal den omkring 62GB hukommelse; med 4-bit kvantisering komprimeres den til omkring 16GB, lille nok til at køre på en bærbar computer med 32GB RAM.
Hvad der gør Gemma 4 særlig interessant for vores use case:
Afvejningen er klar: du opgiver plug-and-play-bekvemmeligheden ved et API-kald til gengæld for kontrol, privatliv og dramatisk lavere marginale omkostninger i stor skala.
Vores platform genererer hundredvis af artikler dagligt på tværs af fodbold, basketball, ishockey, NFL, baseball, rugby, volleyball og håndbold. Hver artikel koster omkring $0,016 i API-kald til Claude Sonnet. Det summerer sig hurtigt — 500 artikler dagligt betyder $240 pr. måned, eller $2.880 pr. år.
Ud over omkostninger ønskede vi:
Hypotesen: hvis vi træner en 31B-parameter-model på 120 “perfekte” artikler skrevet af Claude Sonnet, skulle den lære strukturen, tonen og sportspecifikke konventioner godt nok til at producere artikler autonomt.
Eksperimentet kørte i fem faser:
Fase 1: Valg af træningskampe — Ikke alle kampe gør gode træningseksempler. Vi byggede et righedsscoringssystem, der favoriserede datadense kampe med begivenheder, statistik og kontekst for stilling. Vi valgte 100 kampartikler og 20 ligadagsopsummeringer med mangfoldighed på tværs af resultattyper (hjemmesejre, udebortesejre, uafgjort, nedsmeltninger, comebacks). For dette indledende eksperiment fokuserede vi udelukkende på fodbold: 120 træningseksempler i alt.
Fase 2: Generering af referenceartikler med Claude Sonnet — Hver kamps JSON-data blev transformeret til en struktureret tekstprompt og sendt til Claude Sonnet med en systemprompt, der definerede den omvendte pyramideartikkelstruktur: overskrift, ledeparagraf med score, kronologiske nøglemoment, statistikanalyse, ligakontekst og et kort fremtidsudsyn. Hver artikel kostede ~$0,016. Det fulde 120-artikel datasæt kostede under $2.
Fase 3: Datasætformatering — Artikler blev konverteret til Gemmas chatformat (<start_of_turn>user / <start_of_turn>model) og opdelt 90/10 i 115 trænings- og 13 valideringseksempler.
Fase 4: Fine-Tuning med LoRA på MLX — Det er her Apple Silicon beviser sin værd. Hele 31B-modellen passer i unified memory på M3 Max. Vi brugte LoRA til at indsætte små trænbare matricer i 16 lag, tilføjede blot 16,3 millioner trænbare parametre — 0,053% af totalen.
| Parameter | Værdi |
|---|---|
| Basismodel | google/gemma-4-31B-it |
| Trænbare parametre | 16,3M (0,053% af 31B) |
| Træningseksempler | 115 |
| Epoker | 3 |
| Samlede iterationer | 345 |
| Batchstørrelse | 1 |
| Læringsrate | 1e-4 |
| Spidsmemorieforbrug | 76,4 GB |
| Træningtid | ~2,5 timer |
Valideringsverlust faldt fra 6,614 til 1,224 over 345 iterationer, med den stejleste forbedring i de første 100 trin.
Fase 5: Kvantisering — Vi anvendte 4-bit kvantisering ved hjælp af MLX, komprimerede modellen fra 62GB til ~16GB. Dette gjorde inferensen 2,6 gange hurtigere, samtidig med at kvaliteten blev opretholdt acceptabelt.
Vi sammenlignede fem artikler genereret fra identiske kampdata på tværs af alle tre konfigurationer.
| Konfiguration | Gennemsnitlige ord | Gennemsnitlig tid | Kvalitet |
|---|---|---|---|
| Claude Sonnet (API) | 402 | ~2s | Bedste narrativ flow, nul hallucinationer |
| Gemma 4 31B fp16 + LoRA | 391 | 207s | Stærk struktur, lejlighedsvis gentagelse |
| Gemma 4 31B 4-bit + LoRA | 425 | 80s | God struktur, lejlighedsvis mindre faktiske fejl |
Hvor den fine-tunede Gemma 4 udmærker sig:
Hvor Sonnet stadig fører:
Var LoRA-træning det værd? Absolut. Uden LoRA producerer basismodellen Gemma 4 output fyldt med interne tænketokens (<|channel>thought), markdown-formatering og generisk sportsskrivning. Den fine-tunede model udlæser rent, produktionsklar tekst i vores nøjagtige redaktionelle stil. Hele LoRA-træningen kostede $2 i API-kald og 2,5 timer beregning.
MacBook Pro M3 Max tjente sit formål som udviklings- og eksperimentplatform. Det beviste, at fine-tuning og inferens på en 31B-model er teknisk mulig på Apple Silicon. Men vi ville aldrig implementere produktionsworkloads på en lokal bærbar computer.
Til faktisk produktionsimplementering er en cloud GPU-instans det rigtige valg. Her er hvad en realistisk implementering ser ud på AWS.
Den kvantiserede 4-bit Gemma 4-model (16GB) passer komfortabelt på en enkelt A10G GPU. Inferenshastighed på A10G er dramatisk hurtigere end Apple Silicon — cirka 15 sekunder pr. artikel vs. 80 sekunder på M3 Max.
| Metrik | Værdi |
|---|---|
| Instanstype | g5.xlarge |
| GPU | NVIDIA A10G (24GB VRAM) |
| On-demand pris | $1,006/time |
| Spot pris (typisk) | ~$0,40/time |
| Inferenshastighed | ~15 sekunder/artikel |
| Gennemstrømning | ~240 artikler/time |
| Omkostning pr. artikel (on-demand) | $0,0042 |
| Omkostning pr. artikel (spot) | $0,0017 |
| Tilgang | Omkostning/artikel | Daglige omkostninger | Månedlige omkostninger | Årlige omkostninger |
|---|---|---|---|---|
| Claude Sonnet API | $0,016 | $8,00 | $240 | $2.880 |
| AWS g5.xlarge (on-demand) | $0,0042 | $2,10 | $63 | $756 |
| AWS g5.xlarge (spot) | $0,0017 | $0,85 | $25,50 | $306 |
| Lokal M3 Max (elektricitet) | $0,0007 | $0,35 | $10,50 | $126 |
GPU-fordelen er klar: 74% omkostningsreduktion på on-demand-instanser, 89% på spot-instanser, sammenlignet med Sonnet API-kald — med generationshastigheder kun 7-8 gange langsommere end et API-kald i stedet for 40 gange langsommere på M3 Max.
Den lokale M3 Max har de laveste marginale omkostninger ($0,0007/artikel i elektricitet), men den højeste forhåndsudgift. Ved omkring 45 artikler i timen (4-bit kvantiseret) producerer en enkelt M3 Max omkring 1.080 artikler dagligt ved at køre 24/7.
| Omkostningsfaktor | Værdi |
|---|---|
| Hardwareomkostning | ~$4.000 (MacBook Pro M3 Max 96GB) |
| Strømforbrug | ~200W under belastning |
| Elektricitetsomkostning | ~$0,72/dag (24 timer kontinuerlig) |
| Gennemstrømning | ~1.080 artikler/dag |
| Break-even vs. Sonnet | ~260.000 artikler (~8 måneder ved 500/dag) |
Hvornår giver lokal mening? For virksomheder, der har brug for 100% dataprivatliv og ikke kan bruge cloud-baserede modeller — uanset om det skyldes regulatoriske krav, kontraktlige forpligtelser eller drift i sensitive domæner — eliminerer en lokal implementering al ekstern dataoverførsel. Kampdata, modelværter og genereret indhold forlader aldrig virksomhedens lokaler. Dette handler ikke om omkostningsoptimering; det handler om overholdelse og kontrol. Industrier som forsvar, sundhedsvæsen, finans og jura kan finde dette det eneste acceptable implementeringsmodel.
Det kritiske spørgsmål: ved hvilken mængde bryder investeringen i fine-tuning lige ud sammenlignet med blot at bruge Claude Sonnet til alt?
| Vare | Omkostning |
|---|---|
| Træningsdatagenerering (120 artikler via Sonnet) | $2 |
| Fuld 9-sport træningsdata (960 artikler) | $16 |
| Udviklertid til rørledning (~20 timer) | ~$500 |
| AWS GPU-tid til træning (valgfrit) | ~$5 |
| Samlet engangsudgift | ~$523 |
Besparelsen pr. artikel afhænger af din implementering:
| Implementering | Omkostning/artikel | Besparelser vs. Sonnet | Break-Even (artikler) | Break-Even ved 500/dag |
|---|---|---|---|---|
| AWS on-demand | $0,0042 | $0,0118 | ~44.300 | ~89 dage (~3 måneder) |
| AWS spot | $0,0017 | $0,0143 | ~36.600 | ~73 dage (~2,5 måneder) |
| Lokal M3 Max | $0,0007 | $0,0153 | ~34.200 | ~68 dage (~2 måneder) |
Hvis vi udelukker udviklertid (behandler det som en ubrugt omkostning for læringsoplevelsen) og kun tæller hårde infrastrukturomkostninger ($21):
| Implementering | Break-Even (artikler) | Break-Even ved 500/dag |
|---|---|---|
| AWS on-demand | ~1.780 | 3,5 dage |
| AWS spot | ~1.470 | 3 dage |
| Lokal M3 Max | ~1.370 | 2,7 dage |
Matematikken er ligetil: hvis du genererer mere end ~1.500 artikler, betaler den brugerdefinerede model sig selv i hårde omkostninger alene. Inklusive udviklertid skubber break-even til omkring 35.000-45.000 artikler, eller omkring 2,5-3 måneder ved 500 artikler dagligt.
I stor skala (500+ artikler/dag) er årlige besparelser betydelige:
| Tilgang | Årlige omkostninger | Årlige besparelser vs. Sonnet |
|---|---|---|
| Claude Sonnet | $2.880 | — |
| AWS g5 on-demand | $756 + $523 engangsudgift = $1.279 (år 1) | $1.601 |
| AWS g5 spot | $306 + $523 engangsudgift = $829 (år 1) | $2.051 |
| Lokal M3 Max | $126 + $4.523 (hardware + opsætning) = $4.649 (år 1) | -$1.769 (år 1), +$2.754 (år 2+) |
Den mest praktiske tilgang er hybrid: brug den fine-tunede Gemma 4-model til rutinemæssigt indhold (størstedelen af mængden) og reserver Claude Sonnet til:
Dette giver dig omkostningsfordelene ved selvhostet inferens på 80-90% af din mængde, samtidig med at du holder Sonnets overlegne kvalitet tilgængelig for de kanttilfælde, der betyder mest.
LoRA er bemærkelsesværdigt effektivt til stiloverdragelse. Med kun 115 træningseksempler lærte modellen vores nøjagtige artikelformat, tone og sportspecifikke konventioner. Den omvendte pyramidestruktur, aktivverbstil og data-grundlagt tilgang blev alle overført rent.
Apple Silicon er en levedygtig træningsplatform til 31B-modeller. M3 Max håndterede hele modellen med gradientkontrolpunkt, der toppede ved 76,4GB. Træning blev afsluttet på 2,5 timer — hurtigt nok til at iterere på hyperparametre inden for en enkelt arbejdsdag.
Strukturerede inputdata betyder enormt. Kvaliteten af dataformattøren påvirker direkte artikelkvaliteten. Investering i omfattende dataekstraktion giver udbytte på både API- og selvhostede stier.
Produktionsimplementering hører hjemme i skyen (for de fleste teams). M3 Max beviste konceptet. AWS GPU-instanser leverer den hastighed og pålidelighed, der er nødvendig for produktionsworkloads med 74-89% mindre omkostninger end API-kald. Lokale maskiner forbliver det rigtige valg kun, når dataprivatkrav udelukker al ekstern infrastruktur.
Break-even-matematikken favoriserer brugerdefinerede modeller i moderat skala. Ethvert team, der genererer mere end ~1.500 artikler, vil gendanne de hårde omkostninger ved fine-tuning næsten øjeblikkeligt. Det rigtige spørgsmål er ikke, om brugerdefinerede modeller sparer penge — det er, om dit team har ingeniørkapacitet til at bygge og vedligeholde rørledningen.
Fine-tuning af Gemma 4 31B producerede en indholdssgenerator, der matcher Claude Sonnet i overskriftkvalitet, artikelstruktur og faktisk nøjagtighed — samtidig med at per-artikel-omkostningerne reduceres med 74-89% på cloud-infrastruktur og muliggør fuldt privat, on-premise-implementering for organisationer, der kræver det.
MacBook M3 Max tjente rent som en testbænk til dette eksperiment. Faktisk produktionsimplementering ville køre på AWS GPU-instanser (g5.xlarge med A10G), hvor den kvantiserede model genererer artikler på omkring 15 sekunder for $0,0042 hver — sammenlignet med $0,016 pr. Sonnet API-kald.
For virksomheder, der har brug for fuldstændig dataprivatliv og ikke kan bruge cloud-baserede AI-tjenester, er en lokal maskine, der kører den kvantiserede model, en legitim mulighed. Ved omkring 45 artikler i timen håndterer en enkelt arbejdsstation moderate mængder med nul ekstern datablotlæggelse. Hardwareinvesteringen betaler sig selv på omkring 8 måneder sammenlignet med API-omkostninger.
Økonomien er klar: ved 500 artikler dagligt sparer en brugerdefineret fine-tunet model på AWS spot-instanser over $2.000 pr. år sammenlignet med Claude Sonnet API-kald. Break-even-punktet ankommer på under 3 måneder. For teams, der allerede kører indholdsgeneration i stor skala, repræsenterer kombinationen af open-weight-modeller, LoRA fine-tuning og commodity GPU-hardware et troværdigt, omkostningseffektivt alternativ til proprietære API’er.
Bygget med FlowHunt . Den komplette rørledning — fra dataforberedelse gennem fine-tuning til inferens — er tilgængelig som en del af vores sports dataplattforms toolkit.
Viktor Zeman er medejer af QualityUnit. Selv efter 20 år som leder af virksomheden er han først og fremmest softwareingeniør med speciale i AI, programmatisk SEO og backend-udvikling. Han har bidraget til adskillige projekter, herunder LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab og mange flere.

FlowHunt hjælper dig med at bygge automatiserede indholdsgenereringsarbejdsgange ved hjælp af de bedste AI-modeller — uanset om det er cloud-API'er eller selvhostede open source-modeller.

Large Language Model Meta AI (LLaMA) er en avanceret model til naturlig sprogbehandling udviklet af Meta. Med op til 65 milliarder parametre udmærker LLaMA sig ...

Udforsk tankeprocesserne hos AI-agenter i denne omfattende evaluering af GPT-4o. Opdag, hvordan den præsterer på opgaver som indholdsgenerering, problemløsning ...

KNIME (Konstanz Information Miner) er en kraftfuld open-source dataanalyseplatform, der tilbyder visuelle workflows, problemfri dataintegration, avanceret analy...