Kosten von LLM
Entdecken Sie die Kosten, die mit dem Training und der Bereitstellung von Large Language Models (LLMs) wie GPT-3 und GPT-4 verbunden sind, einschließlich Rechen...
Ein praktisches Experiment zum Fine-Tuning von Gemma 4 31B mit LoRA auf Apple Silicon zur Generierung von Sportartikeln, direkt verglichen mit Claude Sonnet in Qualität, Geschwindigkeit und Kosten.
Wir betreiben eine Sportdaten-Plattform, die Spielberichte und Liga-Zusammenfassungen über neun Sportarten veröffentlicht. Jeder Artikel wurde durch API-Aufrufe an Claude Sonnet generiert — zuverlässig, hochwertig, aber teuer im großen Maßstab. Wir wollten wissen: Könnte ein Open-Source-Modell, das auf unseren eigenen Daten fine-tuned wurde, Artikel von vergleichbarer Qualität produzieren und dabei vollständig auf lokaler Hardware laufen?
Dieser Beitrag führt durch das vollständige Experiment — von der Datenvorbereitung über LoRA Fine-Tuning bis zu einem direkten Vergleich — unter Verwendung von Googles Gemma 4 31B-Modell, Apples MLX-Framework und einem MacBook Pro M3 Max mit 96GB einheitlichem Speicher. Wir analysieren auch die realen Wirtschaftlichkeit: Wann spart das Training eines benutzerdefinierten Modells tatsächlich Geld im Vergleich zu API-Aufrufen?
Gemma 4 ist Googles Open-Weight Large Language Model Familie, die 2025 als Nachfolger der Gemma 2 Serie veröffentlicht wurde. Das Schlüsselwort ist Open-Weight — im Gegensatz zu proprietären Modellen wie GPT-4 oder Claude sind Gemmas 4-Gewichte frei verfügbar zum Herunterladen, Fine-Tuning und Bereitstellung ohne laufende API-Gebühren.
Das Modell kommt in mehreren Größen. Wir verwendeten die 31B-Parameter-anweisungsoptimierte Variante (google/gemma-4-31B-it), die einen süßen Punkt zwischen Fähigkeit und Hardware-Anforderungen darstellt. Bei vollständiger fp16-Präzision benötigt es etwa 62GB Speicher; mit 4-Bit-Quantisierung komprimiert es sich auf etwa 16GB, klein genug, um auf einem Laptop mit 32GB RAM zu laufen.
Was Gemma 4 besonders interessant für unseren Anwendungsfall macht:
Der Kompromiss ist klar: Sie geben die Plug-and-Play-Bequemlichkeit eines API-Aufrufs auf, um Kontrolle, Datenschutz und dramatisch niedrigere Grenzkosten im großen Maßstab zu erhalten.
Unsere Plattform generiert hunderte Artikel pro Tag über Football, Basketball, Eishockey, NFL, Baseball, Rugby, Volleyball und Handball. Jeder Artikel kostet ungefähr $0,016 in API-Aufrufen an Claude Sonnet. Das summiert sich schnell — 500 Artikel pro Tag bedeuten $240 pro Monat oder $2.880 pro Jahr.
Über die Kosten hinaus wollten wir:
Die Hypothese: Wenn wir ein 31B-Parameter-Modell auf 120 “perfekten” Artikeln trainieren, die von Claude Sonnet geschrieben wurden, sollte es die Struktur, den Ton und die sportspezifischen Konventionen gut genug lernen, um Artikel autonom zu produzieren.
Das Experiment lief in fünf Phasen:
Phase 1: Auswahl von Trainings-Matches — Nicht alle Matches sind gute Trainingsbeispiele. Wir bauten ein Richtwert-Scoring-System, das datenreiche Matches mit Ereignissen, Statistiken und Kontextinformationen bevorzugt. Wir wählten 100 Match-Artikel und 20 Liga-Tages-Zusammenfassungen aus, mit Vielfalt über Ergebnistypen (Heimsiege, Auswärtssiege, Unentschieden, Blowouts, Comebacks). Für dieses anfängliche Experiment konzentrierten wir uns ausschließlich auf Football: 120 Trainingsbeispiele insgesamt.
Phase 2: Generierung von Referenz-Artikeln mit Claude Sonnet — Jede Match-JSON wurde in eine strukturierte Text-Eingabeaufforderung umgewandelt und an Claude Sonnet mit einer Systemaufforderung gesendet, die die invertierte Pyramiden-Artikelstruktur definiert: Schlagzeile, Lead-Absatz mit Punktestand, chronologische Schlüsselmomente, Statistik-Analyse, Liga-Kontext und ein kurzer Ausblick. Jeder Artikel kostete ungefähr $0,016. Das vollständige 120-Artikel-Datensatz kostete unter $2.
Phase 3: Datensatz-Formatierung — Artikel wurden in Gemmas Chat-Format umgewandelt (<start_of_turn>user / <start_of_turn>model) und 90/10 in 115 Trainings- und 13 Validierungsbeispiele aufgeteilt.
Phase 4: Fine-Tuning mit LoRA auf MLX — Hier zeigt Apple Silicon seine Stärken. Das gesamte 31B-Modell passt in den einheitlichen Speicher des M3 Max. Wir verwendeten LoRA, um kleine trainierbare Matrizen in 16 Schichten einzufügen, was nur 16,3 Millionen trainierbare Parameter hinzufügte — 0,053% der Gesamtmenge.
| Parameter | Wert |
|---|---|
| Basis-Modell | google/gemma-4-31B-it |
| Trainierbare Parameter | 16,3M (0,053% von 31B) |
| Trainingsbeispiele | 115 |
| Epochen | 3 |
| Gesamtiterationen | 345 |
| Batch-Größe | 1 |
| Lernrate | 1e-4 |
| Spitzenspeichernutzung | 76,4 GB |
| Trainingszeit | ~2,5 Stunden |
Der Validierungsverlust fiel von 6,614 auf 1,224 über 345 Iterationen, mit der steilsten Verbesserung in den ersten 100 Schritten.
Phase 5: Quantisierung — Wir wendeten 4-Bit-Quantisierung mit MLX an und kompromierten das Modell von 62GB auf ~16GB. Dies machte Inference 2,6x schneller, während die akzeptable Qualität beibehalten wurde.
Wir verglichen fünf Artikel, die aus identischen Match-Daten über alle drei Konfigurationen generiert wurden.
| Konfiguration | Durchschn. Wörter | Durchschn. Zeit | Qualität |
|---|---|---|---|
| Claude Sonnet (API) | 402 | ~2s | Bester Erzählfluss, null Halluzinationen |
| Gemma 4 31B fp16 + LoRA | 391 | 207s | Starke Struktur, gelegentliche Wiederholung |
| Gemma 4 31B 4-Bit + LoRA | 425 | 80s | Gute Struktur, gelegentliche kleine faktische Fehler |
Wo das fine-tunete Gemma 4 glänzt:
Wo Sonnet immer noch führt:
War LoRA-Training die Mühe wert? Absolut. Ohne LoRA produziert das Basis-Gemma 4-Modell Ausgaben, die mit internen Denk-Tokens (<|channel>thought), Markdown-Formatierung und generischem Sportswriting vollgestopft sind. Das fine-tunete Modell gibt sauberen, produktionsreifen Text in unserem exakten redaktionellen Stil aus. Das gesamte LoRA-Training kostete $2 in API-Aufrufen und 2,5 Stunden Rechenzeit.
Der MacBook Pro M3 Max erfüllte seinen Zweck als Entwicklungs- und Experimentierplattform. Er bewies, dass Fine-Tuning und Inference auf einem 31B-Modell technisch auf Apple Silicon machbar ist. Aber wir würden niemals Produktions-Workloads auf einem lokalen Laptop bereitstellen.
Für die tatsächliche Produktionsbereitstellung ist eine Cloud-GPU-Instanz die richtige Wahl. Hier ist, wie eine realistische Bereitstellung auf AWS aussieht.
Das quantisierte 4-Bit Gemma 4-Modell (16GB) passt bequem auf eine einzelne A10G-GPU. Die Inference-Geschwindigkeit auf A10G ist dramatisch schneller als auf Apple Silicon — ungefähr 15 Sekunden pro Artikel vs. 80 Sekunden auf dem M3 Max.
| Metrik | Wert |
|---|---|
| Instanztyp | g5.xlarge |
| GPU | NVIDIA A10G (24GB VRAM) |
| On-Demand-Preis | $1,006/Std |
| Spot-Preis (typisch) | ~$0,40/Std |
| Inference-Geschwindigkeit | ~15 Sekunden/Artikel |
| Durchsatz | ~240 Artikel/Stunde |
| Kosten pro Artikel (On-Demand) | $0,0042 |
| Kosten pro Artikel (Spot) | $0,0017 |
| Ansatz | Kosten/Artikel | Tägliche Kosten | Monatliche Kosten | Jährliche Kosten |
|---|---|---|---|---|
| Claude Sonnet API | $0,016 | $8,00 | $240 | $2.880 |
| AWS g5.xlarge (On-Demand) | $0,0042 | $2,10 | $63 | $756 |
| AWS g5.xlarge (Spot) | $0,0017 | $0,85 | $25,50 | $306 |
| Lokaler M3 Max (Strom) | $0,0007 | $0,35 | $10,50 | $126 |
Der GPU-Vorteil ist klar: 74% Kostenreduktion bei On-Demand-Instanzen, 89% bei Spot-Instanzen, im Vergleich zu Sonnet API-Aufrufen — mit Generierungsgeschwindigkeiten, die nur 7-8x langsamer als ein API-Aufruf sind, anstatt 40x langsamer auf dem M3 Max.
Der lokale M3 Max hat die niedrigsten Grenzkosten ($0,0007/Artikel in Strom), aber die höchste Anfangsinvestition. Bei ~45 Artikeln pro Stunde (4-Bit quantisiert) produziert ein einzelner M3 Max ungefähr 1.080 Artikel pro Tag mit kontinuierlichem Betrieb.
| Kostenfaktor | Wert |
|---|---|
| Hardware-Kosten | ~$4.000 (MacBook Pro M3 Max 96GB) |
| Stromverbrauch | ~200W unter Last |
| Stromkosten | ~$0,72/Tag (24h kontinuierlich) |
| Durchsatz | ~1.080 Artikel/Tag |
| Break-Even vs. Sonnet | ~260.000 Artikel (~8 Monate bei 500/Tag) |
Wann macht lokal Sinn? Für Unternehmen, die 100% Datenschutz benötigen und keine Cloud-basierten Modelle verwenden können — ob aufgrund von Compliance-Anforderungen, vertraglichen Verpflichtungen oder dem Betrieb in sensiblen Domänen — eliminiert eine lokale Bereitstellung alle externe Datenübertragung. Die Match-Daten, die Modell-Gewichte und der generierte Inhalt verlassen niemals die Unternehmensräumlichkeiten. Dies ist nicht um Kostenoptimierung; es geht um Compliance und Kontrolle. Branchen wie Verteidigung, Gesundheitswesen, Finanzwesen und Rechtswesen könnten dies als das einzige akzeptable Bereitstellungsmodell finden.
Die kritische Frage: Bei welchem Volumen amortisiert sich die Investition in Fine-Tuning im Vergleich zur einfachen Verwendung von Claude Sonnet für alles?
| Artikel | Kosten |
|---|---|
| Trainings-Datengenerierung (120 Artikel via Sonnet) | $2 |
| Vollständige 9-Sport-Trainings-Daten (960 Artikel) | $16 |
| Entwicklerzeit für Pipeline (~20 Stunden) | ~$500 |
| AWS GPU-Zeit für Training (optional) | ~$5 |
| Gesamte einmalige Investition | ~$523 |
Die Einsparungen pro Artikel hängen von Ihrer Bereitstellung ab:
| Bereitstellung | Kosten/Artikel | Einsparungen vs. Sonnet | Break-Even (Artikel) | Break-Even bei 500/Tag |
|---|---|---|---|---|
| AWS On-Demand | $0,0042 | $0,0118 | ~44.300 | ~89 Tage (~3 Monate) |
| AWS Spot | $0,0017 | $0,0143 | ~36.600 | ~73 Tage (~2,5 Monate) |
| Lokaler M3 Max | $0,0007 | $0,0153 | ~34.200 | ~68 Tage (~2 Monate) |
Wenn wir die Entwicklerzeit ausschließen (sie als versunkene Kosten für die Lernererfahrung behandeln) und nur die harten Infrastrukturkosten zählen ($21):
| Bereitstellung | Break-Even (Artikel) | Break-Even bei 500/Tag |
|---|---|---|
| AWS On-Demand | ~1.780 | 3,5 Tage |
| AWS Spot | ~1.470 | 3 Tage |
| Lokaler M3 Max | ~1.370 | 2,7 Tage |
Die Mathematik ist einfach: Wenn Sie mehr als ~1.500 Artikel generieren, amortisiert sich das benutzerdefinierte Modell in harten Kosten allein. Wenn man die Entwicklerzeit einbezieht, verschiebt sich der Break-Even auf ungefähr 35.000-45.000 Artikel oder etwa 2,5-3 Monate bei 500 Artikeln pro Tag.
Im großen Maßstab (500+ Artikel/Tag) sind die jährlichen Einsparungen erheblich:
| Ansatz | Jährliche Kosten | Jährliche Einsparungen vs. Sonnet |
|---|---|---|
| Claude Sonnet | $2.880 | — |
| AWS g5 On-Demand | $756 + $523 einmalig = $1.279 (Jahr 1) | $1.601 |
| AWS g5 Spot | $306 + $523 einmalig = $829 (Jahr 1) | $2.051 |
| Lokaler M3 Max | $126 + $4.523 (Hardware + Setup) = $4.649 (Jahr 1) | -$1.769 (Jahr 1), +$2.754 (Jahr 2+) |
Der praktischste Ansatz ist Hybrid: Verwenden Sie das fine-tunete Gemma 4-Modell für Routine-Inhalte (die Masse des Volumens) und reservieren Sie Claude Sonnet für:
Dies gibt Ihnen die Kostenvorteile des selbst gehosteten Inference auf 80-90% Ihres Volumens, während Sonnets überlegene Qualität für die Edge-Cases verfügbar bleibt, die am meisten zählen.
LoRA ist bemerkenswert effizient für Stil-Transfer. Mit nur 115 Trainingsbeispielen lernte das Modell unser exaktes Artikelformat, unseren Ton und unsere sportspezifischen Konventionen. Die invertierte Pyramiden-Struktur, der aktiv-Verb-Stil und der datengestützte Ansatz alle übertrugen sich sauber.
Apple Silicon ist eine praktikable Trainings-Plattform für 31B-Modelle. Der M3 Max handhabte das vollständige Modell mit Gradienten-Checkpointing und erreichte eine Spitze von 76,4GB. Das Training wurde in 2,5 Stunden abgeschlossen — schnell genug, um Hyperparameter innerhalb eines einzelnen Arbeitstages zu iterieren.
Strukturierte Input-Daten sind enormen wichtig. Die Qualität des Daten-Formatters beeinflusst direkt die Artikelqualität. Investitionen in umfassende Datenextrahierung zahlen sich auf beiden dem API- und dem selbst gehosteten Weg aus.
Produktionsbereitstellung gehört in die Cloud (für die meisten Teams). Der M3 Max bewies das Konzept. AWS GPU-Instanzen liefern die Geschwindigkeit und Zuverlässigkeit, die für Produktions-Workloads bei 74-89% weniger Kosten als API-Aufrufe erforderlich sind. Lokale Maschinen bleiben die richtige Wahl nur, wenn Datenschutz-Anforderungen alle externe Infrastruktur ausschließen.
Die Break-Even-Mathematik bevorzugt benutzerdefinierte Modelle im mittleren Maßstab. Jedes Team, das mehr als ~1.500 Artikel generiert, wird die harten Kosten des Fine-Tuning fast sofort zurückgewinnen. Die echte Frage ist nicht, ob benutzerdefinierte Modelle Geld sparen — es ist, ob Ihr Team die Engineering-Kapazität hat, die Pipeline zu bauen und zu warten.
Das Fine-Tuning von Gemma 4 31B produzierte einen Content-Generator, der Claude Sonnet in Schlagzeilenqualität, Artikelstruktur und faktischer Genauigkeit entspricht — während die Kosten pro Artikel um 74-89% auf Cloud-Infrastruktur reduziert werden und vollständig private, On-Premise-Bereitstellung für Organisationen ermöglicht wird, die sie benötigen.
Der M3 Max MacBook diente rein als Test-Bank für dieses Experiment. Eine echte Produktionsbereitstellung würde auf AWS GPU-Instanzen (g5.xlarge mit A10G) laufen, wobei das quantisierte Modell Artikel in ungefähr 15 Sekunden bei $0,0042 pro Stück generiert — im Vergleich zu $0,016 pro Sonnet API-Aufruf.
Für Unternehmen, die vollständigen Datenschutz benötigen und keine Cloud-basierten KI-Dienste verwenden können, ist eine lokale Maschine, auf der das quantisierte Modell läuft, eine legitime Option. Bei ~45 Artikeln pro Stunde handhabt eine einzelne Workstation moderate Volumen mit null externer Datenexposition. Die Hardware-Investition amortisiert sich in etwa 8 Monaten im Vergleich zu API-Kosten.
Die Wirtschaftlichkeit ist klar: Bei 500 Artikeln pro Tag spart ein benutzerdefiniertes fine-tunetes Modell auf AWS Spot-Instanzen über $2.000 pro Jahr im Vergleich zu Claude Sonnet API-Aufrufen. Der Break-Even-Punkt wird in weniger als 3 Monaten erreicht. Für Teams, die bereits Content-Generierung im großen Maßstab durchführen, stellt die Kombination von Open-Weight-Modellen, LoRA Fine-Tuning und Commodity-GPU-Hardware eine glaubwürdige, kosteneffektive Alternative zu proprietären APIs dar.
Erstellt mit FlowHunt . Die vollständige Pipeline — von der Datenvorbereitung über Fine-Tuning bis zum Inference — ist als Teil unseres Sportdaten-Plattform-Toolkits verfügbar.
Viktor Zeman ist Miteigentümer von QualityUnit. Auch nach 20 Jahren als Leiter des Unternehmens bleibt er in erster Linie Softwareentwickler, spezialisiert auf KI, programmatisches SEO und Backend-Entwicklung. Er hat zu zahlreichen Projekten beigetragen, darunter LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab und viele andere.

FlowHunt hilft Ihnen, automatisierte Content-Generierungs-Workflows mit den besten KI-Modellen zu erstellen — ob Cloud-APIs oder selbst gehostete Open-Source-Modelle.
Entdecken Sie die Kosten, die mit dem Training und der Bereitstellung von Large Language Models (LLMs) wie GPT-3 und GPT-4 verbunden sind, einschließlich Rechen...
Large Language Model Meta AI (LLaMA) ist ein hochmodernes Modell zur Verarbeitung natürlicher Sprache, entwickelt von Meta. Mit bis zu 65 Milliarden Parametern ...
LangChain ist ein Open-Source-Framework zur Entwicklung von Anwendungen, die von großen Sprachmodellen (LLMs) unterstützt werden. Es vereinfacht die Integration...