
KNIME
KNIME (Konstanz Information Miner) är en kraftfull öppen källkodsplattform för dataanalys som erbjuder visuella arbetsflöden, sömlös dataintegration, avancerad ...
Ett praktiskt experiment med fine-tuning av Gemma 4 31B med LoRA på Apple Silicon för att generera sportartiklar, jämfört direkt med Claude Sonnet när det gäller kvalitet, hastighet och kostnad.
Vi driver en sportdataplattform som publicerar matchrapporter och liggrundsammanfattningar inom nio sporter. Varje artikel har genererats genom API-anrop till Claude Sonnet — tillförlitlig, högkvalitativ, men dyr i stor skala. Vi ville veta: kunde en open-source-modell, fine-tunad på vår egen data, producera artiklar av jämförbar kvalitet medan den körs helt på lokal hårdvara?
Det här inlägget går igenom det fullständiga experimentet — från dataförberedelse till LoRA fine-tuning till en direktjämförelse — med Googles Gemma 4 31B-modell, Apples MLX-ramverk och en MacBook Pro M3 Max med 96 GB enhetligt minne. Vi bryter också ned den verkliga ekonomin: när sparar träning av en anpassad modell faktiskt pengar jämfört med API-anrop?
Gemma 4 är Googles open-weight-familj av stora språkmodeller, släppt 2025 som en efterföljare till Gemma 2-serien. Nyckelordet är open-weight — till skillnad från proprietära modeller såsom GPT-4 eller Claude är Gemma 4:s vikter fritt tillgängliga för nedladdning, fine-tuning och distribution utan löpande API-avgifter.
Modellen finns i flera storlekar. Vi använde 31B-parameter-instruktionsanpassad variant (google/gemma-4-31B-it), som ligger i en sweet spot mellan kapacitet och hårdvarukrav. Vid full fp16-precision behöver den cirka 62 GB minne; med 4-bitars kvantisering komprimeras den till cirka 16 GB, liten nog för att köras på en bärbar dator med 32 GB RAM.
Det som gör Gemma 4 särskilt intressant för vårt användningsfall:
Kompromissen är tydlig: du ger upp bekvämligheten med plug-and-play för ett API-anrop i utbyte mot kontroll, sekretess och dramatiskt lägre marginalkostnader i stor skala.
Vår plattform genererar hundratals artiklar per dag inom fotboll, basket, hockey, NFL, baseball, rugby, volleyboll och handboll. Varje artikel kostar ungefär 0,016 USD i API-anrop till Claude Sonnet. Det läggs ihop snabbt — 500 artiklar per dag betyder 240 USD per månad, eller 2 880 USD per år.
Bortom kostnaden ville vi ha:
Hypotesen: om vi tränar en 31B-parametermodell på 120 “perfekta” artiklar skrivna av Claude Sonnet, bör den lära sig strukturen, tonen och sportspecifika konventioner väl nog för att producera artiklar autonomt.
Experimentet kördes i fem faser:
Fas 1: Val av träningsmatchar — Inte alla matcher är bra träningsexempel. Vi byggde ett rikhetspoängsystem som favoriserar datadensa matcher med händelser, statistik och ställningskontextet. Vi valde 100 matchartiklar och 20 ligdagssammanfattningar, med mångfald över resultattyper (hemmasegrar, bortasegrar, oavgjort, utslagna, comebacks). För detta första experiment fokuserade vi uteslutande på fotboll: 120 träningsexempel totalt.
Fas 2: Generering av referensartiklar med Claude Sonnet — Varje matchs JSON-data omvandlades till en strukturerad textuppmaning och skickades till Claude Sonnet med en systemprompt som definierade den inverterade pyramidartikkelstrukturen: rubrik, ledparagraf med poäng, kronologiska nyckelmoment, statistikanalys, ligkontext och en kort framåtblick. Varje artikel kostade ~0,016 USD. Hela 120-artikeldataset kostade under 2 USD.
Fas 3: Datasetformatering — Artiklar konverterades till Gemmas chattformat (<start_of_turn>user / <start_of_turn>model) och delades 90/10 i 115 tränings- och 13 valideringsexempel.
Fas 4: Fine-Tuning med LoRA på MLX — Det är här Apple Silicon gör sitt värde. Hela 31B-modellen passar i enhetligt minne på M3 Max. Vi använde LoRA för att infoga små träningsbara matriser i 16 lager, vilket lade till endast 16,3 miljoner träningsbara parametrar — 0,053% av totalt.
| Parameter | Värde |
|---|---|
| Basmodell | google/gemma-4-31B-it |
| Träningsbara parametrar | 16,3M (0,053% av 31B) |
| Träningsexempel | 115 |
| Epoker | 3 |
| Totalt iterationer | 345 |
| Batch-storlek | 1 |
| Inlärningshastighet | 1e-4 |
| Toppminneanvändning | 76,4 GB |
| Träningtid | ~2,5 timmar |
Valideringsförlusten sjönk från 6,614 till 1,224 över 345 iterationer, med den brantaste förbättringen i de första 100 stegen.
Fas 5: Kvantisering — Vi tillämpade 4-bitars kvantisering med MLX, vilket komprimerade modellen från 62 GB till ~16 GB. Detta gjorde inferens 2,6x snabbare samtidigt som acceptabel kvalitet bibehölls.
Vi jämförde fem artiklar genererade från identisk matchdata över alla tre konfigurationer.
| Konfiguration | Genomsn. ord | Genomsn. tid | Kvalitet |
|---|---|---|---|
| Claude Sonnet (API) | 402 | ~2s | Bästa narrativa flöde, noll hallucineringar |
| Gemma 4 31B fp16 + LoRA | 391 | 207s | Stark struktur, ibland upprepning |
| Gemma 4 31B 4-bit + LoRA | 425 | 80s | Bra struktur, ibland mindre faktiska fel |
Där fine-tunande Gemma 4 utmärker sig:
Där Sonnet fortfarande leder:
Var LoRA-träning värt det? Absolut. Utan LoRA producerar basmodellen Gemma 4 utdata som är täckta med interna tanketokens (<|channel>thought), markdown-formatering och generisk sportskrivning. Den fine-tunande modellen matar ut ren, produktionsklar text i vår exakta redaktionella stil. Hela LoRA-träningen kostade 2 USD i API-anrop och 2,5 timmar beräkning.
MacBook Pro M3 Max tjänade sitt syfte som utvecklings- och experimentplattform. Det bevisade att fine-tuning och inferens på en 31B-modell är tekniskt genomförbar på Apple Silicon. Men vi skulle aldrig distribuera produktionsarbetsbelastningar på en lokal bärbar dator.
För faktisk produktionsdistribution är en molnbaserad GPU-instans rätt val. Här är hur en realistisk distribution ser ut på AWS.
Den kvantiserade 4-bitars Gemma 4-modellen (16 GB) passar bekvämt på en enda A10G GPU. Inferenshastigheten på A10G är dramatiskt snabbare än Apple Silicon — ungefär 15 sekunder per artikel kontra 80 sekunder på M3 Max.
| Mätning | Värde |
|---|---|
| Instanstyp | g5.xlarge |
| GPU | NVIDIA A10G (24GB VRAM) |
| On-demand-pris | 1,006 USD/timme |
| Spotpris (typiskt) | ~0,40 USD/timme |
| Inferenshastighet | ~15 sekunder/artikel |
| Genomströmning | ~240 artiklar/timme |
| Kostnad per artikel (on-demand) | 0,0042 USD |
| Kostnad per artikel (spot) | 0,0017 USD |
| Metod | Kostnad/artikel | Daglig kostnad | Månadskostnad | Årskostnad |
|---|---|---|---|---|
| Claude Sonnet API | 0,016 USD | 8,00 USD | 240 USD | 2 880 USD |
| AWS g5.xlarge (on-demand) | 0,0042 USD | 2,10 USD | 63 USD | 756 USD |
| AWS g5.xlarge (spot) | 0,0017 USD | 0,85 USD | 25,50 USD | 306 USD |
| Lokal M3 Max (elektricitet) | 0,0007 USD | 0,35 USD | 10,50 USD | 126 USD |
GPU-fördelen är tydlig: 74% kostnadsminskning på on-demand-instanser, 89% på spotinstanser, jämfört med Sonnet API-anrop — med genereringshastigheter endast 7-8x långsammare än ett API-anrop istället för 40x långsammare på M3 Max.
Den lokala M3 Max har den lägsta marginalkostnaden (0,0007 USD/artikel i elektricitet) men den högsta initiala investeringen. Vid ~45 artiklar per timme (4-bitars kvantiserad) producerar en enda M3 Max ungefär 1 080 artiklar per dag i drift 24/7.
| Kostnadsfaktor | Värde |
|---|---|
| Hårdvarukostnad | ~4 000 USD (MacBook Pro M3 Max 96GB) |
| Energiförbrukning | ~200W under belastning |
| Elektricitetskostnad | ~0,72 USD/dag (24 timmars kontinuerlig) |
| Genomströmning | ~1 080 artiklar/dag |
| Break-even kontra Sonnet | ~260 000 artiklar (~8 månader vid 500/dag) |
När är lokalt vettigt? För företag som behöver 100% datasekretess och inte kan använda molnbaserade modeller — oavsett om det beror på regulatoriska krav, avtalsförpliktelser eller verksamhet i känsliga domäner — eliminerar en lokal distribution all extern dataöverföring. Matchdata, modellvikterna och det genererade innehållet lämnar aldrig företagets lokaler. Det här handlar inte om kostnadsoptimering; det handlar om efterlevnad och kontroll. Industrier som försvar, sjukvård, finans och juridik kan finna detta den enda acceptabla distributionsmodellen.
Den kritiska frågan: vid vilken volym lönar sig investeringen i fine-tuning sig mot att bara använda Claude Sonnet för allt?
| Objekt | Kostnad |
|---|---|
| Träningsdatagenerering (120 artiklar via Sonnet) | 2 USD |
| Fullständig 9-sportträningsdata (960 artiklar) | 16 USD |
| Utvecklartid för pipeline (~20 timmar) | ~500 USD |
| AWS GPU-tid för träning (valfritt) | ~5 USD |
| Total engångsinvestering | ~523 USD |
Besparingarna per artikel beror på din distribution:
| Distribution | Kostnad/artikel | Sparande kontra Sonnet | Break-Even (artiklar) | Break-Even vid 500/dag |
|---|---|---|---|---|
| AWS on-demand | 0,0042 USD | 0,0118 USD | ~44 300 | ~89 dagar (~3 månader) |
| AWS spot | 0,0017 USD | 0,0143 USD | ~36 600 | ~73 dagar (~2,5 månader) |
| Lokal M3 Max | 0,0007 USD | 0,0153 USD | ~34 200 | ~68 dagar (~2 månader) |
Om vi utesluter utvecklartid (behandlar den som en sjunken kostnad för lärandeerfarenheten) och bara räknar hårda infrastrukturkostnader (21 USD):
| Distribution | Break-Even (artiklar) | Break-Even vid 500/dag |
|---|---|---|
| AWS on-demand | ~1 780 | 3,5 dagar |
| AWS spot | ~1 470 | 3 dagar |
| Lokal M3 Max | ~1 370 | 2,7 dagar |
Matematiken är enkel: om du genererar fler än ~1 500 artiklar lönar sig den anpassade modellen i bara hårda kostnader. Om du räknar in utvecklartid skjuts break-even till ungefär 35 000-45 000 artiklar, eller cirka 2,5-3 månader vid 500 artiklar per dag.
I stor skala (500+ artiklar/dag) är årssparingarna betydande:
| Metod | Årskostnad | Årligt sparande kontra Sonnet |
|---|---|---|
| Claude Sonnet | 2 880 USD | — |
| AWS g5 on-demand | 756 USD + 523 USD engångsavgift = 1 279 USD (år 1) | 1 601 USD |
| AWS g5 spot | 306 USD + 523 USD engångsavgift = 829 USD (år 1) | 2 051 USD |
| Lokal M3 Max | 126 USD + 4 523 USD (hårdvara + installation) = 4 649 USD (år 1) | -1 769 USD (år 1), +2 754 USD (år 2+) |
Den mest praktiska metoden är hybrid: använd den fine-tunande Gemma 4-modellen för rutininnehål (huvuddelen av volymen), och reservera Claude Sonnet för:
Detta ger dig kostnadsfördelarna med självärdad inferens på 80-90% av din volym samtidigt som du behåller Sonnets överlägsna kvalitet tillgänglig för de kantfall som betyder mest.
LoRA är anmärkningsvärt effektivt för stilöverföring. Med endast 115 träningsexempel lärde sig modellen vårt exakta artikelformat, ton och sportspecifika konventioner. Den inverterade pyramidstrukturen, aktivverbstilen och datamässigt grundad metod överfördes alla rent.
Apple Silicon är en genomförbar träningsplattform för 31B-modeller. M3 Max hanterade hela modellen med gradientkontrollpunkt, topp på 76,4 GB. Träningen slutfördes på 2,5 timmar — snabbt nog för att iterera på hyperparametrar inom en enda arbetsdag.
Strukturerad inmatningsdata spelar enormt stor roll. Kvaliteten på dataformateraren påverkar direkt artikelkvaliteten. Att investera i omfattande datautvinning ger utdelning på både API- och självvärdade vägar.
Produktionsdistribution hör hemma i molnet (för de flesta team). M3 Max bevisade konceptet. AWS GPU-instanser levererar den hastighet och tillförlitlighet som behövs för produktionsarbetsbelastningar till 74-89% mindre kostnad än API-anrop. Lokala maskiner förblir rätt val endast när datasekretesskyckrav utesluter all extern infrastruktur.
Break-even-matematiken gynnar anpassade modeller i måttlig skala. Alla team som genererar fler än ~1 500 artiklar kommer att återhämta de hårda kostnaderna för fine-tuning nästan omedelbar. Den verkliga frågan är inte om anpassade modeller sparar pengar — det är om ditt team har teknikkapaciteten att bygga och underhålla pipelinen.
Fine-tuning av Gemma 4 31B producerade en innehållsgenerator som matchar Claude Sonnet när det gäller rubrikvalkvalitet, artikelstruktur och faktisk noggrannhet — samtidigt som kostnad per artikel reducerades med 74-89% på molninfrastruktur och möjliggör helt privat, lokal distribution för organisationer som kräver det.
MacBook M3 Max tjänade rent som en testbänk för detta experiment. Faktisk produktionsdistribution skulle köras på AWS GPU-instanser (g5.xlarge med A10G), där den kvantiserade modellen genererar artiklar på ungefär 15 sekunder till 0,0042 USD varje — jämfört med 0,016 USD per Sonnet API-anrop.
För företag som behöver fullständig datasekretess och inte kan använda molnbaserade AI-tjänster är en lokal maskin som kör den kvantiserade modellen ett legitimt alternativ. Vid ~45 artiklar per timme hanterar en enda arbetsstation måttliga volymer med noll extern datablottning. Hårdvarainvesteringen lönar sig på ungefär 8 månader jämfört med API-kostnader.
Ekonomin är tydlig: vid 500 artiklar per dag sparar en anpassad fine-tunande modell på AWS spot-instanser över 2 000 USD per år jämfört med Claude Sonnet API-anrop. Break-even-punkten nås på under 3 månader. För team som redan kör innehållsgenerering i stor skala representerar kombinationen av open-weight-modeller, LoRA fine-tuning och commodity GPU-hårdvara ett trovärdigt, kostnadseffektivt alternativ till proprietära API:er.
Byggt med FlowHunt . Den fullständiga pipelinen — från dataförberedelse genom fine-tuning till inferens — är tillgänglig som en del av vår sportdataplattformsverktygslåda.
Viktor Zeman är delägare i QualityUnit. Även efter 20 år som ledare för företaget är han främst mjukvaruingenjör, specialiserad på AI, programmatisk SEO och backendutveckling. Han har bidragit till många projekt, inklusive LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab och många andra.


KNIME (Konstanz Information Miner) är en kraftfull öppen källkodsplattform för dataanalys som erbjuder visuella arbetsflöden, sömlös dataintegration, avancerad ...

Jämför OpenAI O3 Mini och DeepSeek på resonemangsuppgifter, schackstrategi och agentbaserat verktygsanvändande. Se vilken AI som utmärker sig i noggrannhet, pri...

Utforska tankeprocesserna hos AI-agenter i denna omfattande utvärdering av GPT-4o. Upptäck hur den presterar inom uppgifter som innehållsgenerering, problemlösn...