Wer ein Sprachmodell lokal betreiben will, steht vor einer zentralen Frage: Wie viel VRAM brauche ich wirklich – und welche GPU bekomme ich dafür in meinem Budget? Die Antwort hängt weniger von Benchmark-Punkten als von einer simplen Formel ab: Modellgröße mal Quantisierungsfaktor mal Overhead. Diese Anleitung hilft dir, die Rechnung selbst anzustellen, zeigt gemessene VRAM-Werte für verbreitete LLMs und ordnet die RTX-5000-Serie (Blackwell, GDDR7) ehrlich nach dem Nutzen für KI-Workloads ein – inklusive der in Deutschland aktuell erheblich über dem US-MSRP liegenden Straßenpreise.

Voraussetzungen

Windows 10/11 oder Ubuntu 22.04/24.04 (x86-64)
NVIDIA GeForce RTX 5000er-Serie (Blackwell) oder RTX 3000/4000er-Karte als Alternative
Aktueller NVIDIA-Treiber (≥ 570 für Blackwell/CUDA 12.8+)
Ollama oder LM Studio zur lokalen LLM-Inferenz (Installation ca. 5 Minuten)
Netzteil: mindestens 650 W für RTX 5070 Ti, 850 W für RTX 5080, 1.000 W für RTX 5090
System-RAM: mindestens 32 GB DDR5 (für Teiloffloading größerer Modelle)

Die VRAM-Formel: Was wirklich zählt

Der VRAM-Bedarf eines Sprachmodells ergibt sich aus drei Faktoren: der Parameteranzahl, dem Quantisierungsformat und einem Overhead-Aufschlag für KV-Cache, Aktivierungen und Runtime. Die Formel lautet:

# VRAM-Kalkulator-Formel
# VRAM_GB = Parameter_B x Bytes_pro_Parameter x 1,2 (Overhead)

# Bytes pro Parameter nach Quantisierung:
# FP16 / BF16  = 2,0 Bytes
# Q8_0         = 1,0 Bytes
# Q5_K_M       = 0,7 Bytes
# Q4_K_M       = 0,55 Bytes  <- Goldstandard fuer Consumer-GPUs

# Beispielrechnung 14B-Modell bei Q4_K_M:
# 14 x 0,55 x 1,2 = 9,24 GB (theoretisch)
# Gemessen: Qwen3 14B = 10,7 GB, DeepSeek-R1 14B = 11,0 GB
# (KV-Cache bei 8k Kontext treibt den Wert nach oben)

Die Formel liefert einen guten Anhaltswert, unterschätzt aber bei größeren Kontextfenstern: Ein 70B-Modell mit 32k Kontext addiert ca. 32 GB allein für den KV-Cache. Auf Consumer-GPUs daher immer mit 4k–8k Kontext arbeiten.

Gemessene VRAM-Werte für aktuelle LLMs

Die folgende Tabelle zeigt tatsächlich gemessene VRAM-Werte bei 8k Kontext – kein theoretischer Richtwert, sondern Praxismessungen:

Modell	Parameter	VRAM Q4_K_M	VRAM Q8_0	VRAM FP16	Passende GPU
Llama 3.2 3B	3B	~2,0 GB	~3,5 GB	~6 GB	RTX 5060 8 GB
Mistral 7B	7B	~5,5 GB	~8 GB	~14 GB	RTX 5060 8 GB
Llama 3.1 8B	8B	~6,2 GB	~9 GB	~16 GB	RTX 5060 8 GB (knapp) / RTX 5060 Ti 16 GB (komf.)
Qwen3 14B	14B	~10,7 GB	~15 GB	~28 GB	RTX 5060 Ti 16 GB / RTX 5070 Ti 16 GB
DeepSeek-R1 14B	14B	~11,0 GB	~15 GB	~28 GB	RTX 5060 Ti 16 GB / RTX 5070 Ti 16 GB
Gemma 3 27B	27B	~22,5 GB	~30 GB	~54 GB	RTX 5090 32 GB
Qwen3 32B	32B	~22,2 GB	~30 GB	~64 GB	RTX 5090 32 GB
Llama 3.3 70B	70B	~45,6 GB	~70 GB	~140 GB	2× RTX 5090 oder Workstation
Qwen2.5 72B	72B	~50,5 GB	~72 GB	~144 GB	2× RTX 5090 oder Workstation

Wichtig: Diese Werte gelten für Q4_K_M bei 8k Kontextfenster. Mit größerem Kontext steigt der KV-Cache-Anteil erheblich. Bei 32k Kontext kannst du grob mit 4-fachem KV-Cache gegenüber 8k rechnen.

RTX-5000-Überblick: Welche Karte für welche Aufgabe

Die Blackwell-Generation nutzt durchgehend GDDR7-Speicher und bringt im Vergleich zur RTX-4000-Serie deutlich höhere Speicherbandbreiten. Für KI-Workloads ist aber in erster Linie der VRAM-Ausbau entscheidend – nicht die rohe Bandbreite:

Modell	VRAM	Bandbreite	TGP	MSRP (USD)	Straßenpreis (EUR, Jun 2026)	Empfehlung LLM
RTX 5060	8 GB	448 GB/s	145 W	299	ca. 280–320	7B-Modelle (Q4), knappe Reserve
RTX 5060 Ti 8G	8 GB	672 GB/s	180 W	379	ca. 319–380	7B-Modelle, bessere Bandbreite
RTX 5060 Ti 16G	16 GB	672 GB/s	180 W	429	ca. 539–650	bis 14B (Q4), bester KI-Einstieg
RTX 5070	12 GB	672 GB/s	250 W	549	ca. 500–600	7–13B zuverlässig, 14B knapp
RTX 5070 Ti	16 GB	960 GB/s	300 W	749	ca. 900–1.100	bis 14B sicher, 27B mit Offloading
RTX 5080	16 GB	1.792 GB/s	360 W	999	ca. 1.350–1.400	wie 5070 Ti, kein VRAM-Vorteil für KI
RTX 5090	32 GB	2.048 GB/s	575 W	1.999	ca. 3.400–3.800	bis 30B komfortabel, 70B mit Offloading

Straßenpreise 2026: Alle RTX-5000-Karten kosten in Deutschland 20–65 % mehr als der US-MSRP. Ursache sind GDDR7-Lieferengpässe und Kapazitätsdruck bei TSMC. Planungsbudgets immer mit aktuellen Geizhals-Preisen abgleichen, nicht mit MSRP-Angaben.

Budget-Entscheidungsrahmen: Welche GPU für welches Ziel

Der VRAM-Ausbau ist für reine KI-Workloads wichtiger als Bandbreite oder Rechenleistung. Hier die ehrliche Einordnung nach Budget:

Bis 700 EUR: RTX 5060 Ti 16 GB – der beste Einstieg

Die RTX 5060 Ti 16 GB (MSRP 429 USD, Straßenpreis ca. 539–650 EUR) ist der klare Gewinner für KI-Einsteiger. Mit 16 GB VRAM laufen Modelle wie Qwen3 14B oder DeepSeek-R1 14B bei Q4_K_M zuverlässig – eine Modellklasse, die für professionelle Schreib-, Code- und Analyseaufgaben bereits sehr leistungsfähig ist. Achte unbedingt auf die 16-GB-Variante – die 8-GB-Variante der RTX 5060 Ti (MSRP 379 USD) ist für KI kaum besser als die günstigere RTX 5060 und damit eine schlechte Investition.

700–1.200 EUR: RTX 5070 Ti 16 GB – der Sweet Spot für ernsthafte KI

Die RTX 5070 Ti 16 GB (MSRP 749 USD, Straßenpreis ca. 900–1.100 EUR) bietet gegenüber der 5060 Ti 16 GB eine deutlich höhere Speicherbandbreite (960 GB/s vs. 672 GB/s), was bei langen Kontexten zu spürbaren Token-pro-Sekunde-Gewinnen führt. Der VRAM-Ausbau ist identisch, die Bandbreite ist aber ein echter Vorteil bei intensiveren Workflows. Für 27B-Modelle mit Offloading ist die 5070 Ti ebenfalls geeignet.

RTX 5070 12 GB vs. RTX 5060 Ti 16 GB: Für reine KI-Workloads ist 16 GB VRAM wichtiger als die höhere Bandbreite der RTX 5070. Die RTX 5060 Ti 16 GB ist die bessere KI-Wahl, auch wenn die RTX 5070 für Spielen insgesamt stärker ist.

Finger weg für KI: RTX 5080 16 GB

Die RTX 5080 (MSRP 999 USD, Straßenpreis ca. 1.350–1.400 EUR) ist für reine KI-Workloads ein schlechtes Preis-Leistungs-Verhältnis. Sie hat identische 16 GB VRAM wie die RTX 5070 Ti, kostet aber 250–300 EUR mehr. Die höhere Bandbreite (1.792 GB/s) hilft bei Spielen und Rendering, bringt bei lokalen LLMs aber nur marginale Token-Speed-Vorteile ohne VRAM-Mehrwert.

Ab 3.400 EUR: RTX 5090 32 GB – nur für 30B+ Modelle

Die RTX 5090 32 GB (Straßenpreis ca. 3.400–3.800 EUR) ist die einzige Consumer-Option, die 30B-Modelle komfortabel in den VRAM passt und 70B-Modelle mit Offloading erlaubt. Wer regelmäßig mit Gemma 3 27B, Qwen3 32B oder Llama 3.3 70B arbeiten will, kommt an ihr nicht vorbei. Das Preisschild und der 575-W-TGP machen sie aber zu einem Nischen-Werkzeug. Viele Anwender fahren mit zwei RTX 5070 Ti (32 GB kombiniert, ca. 1.800–2.200 EUR) besser.

70B-Modelle: Kein einzelner Consumer-RTX reicht

Llama 3.3 70B benötigt bei Q4_K_M ca. 45,6 GB VRAM, Qwen2.5 72B sogar ca. 50,5 GB – das übersteigt die 32 GB der RTX 5090. Optionen: zwei RTX 5090 im Multi-GPU-Betrieb (teuer), eine Workstation-GPU (z. B. NVIDIA RTX Pro 6000 mit 96 GB), oder CPU-Offloading in Ollama mit 64+ GB System-RAM (machbar, aber 10–30× langsamer als GPU-Only).

Quantisierung: Q4_K_M als Goldstandard

Die Wahl des Quantisierungsformats ist genauso wichtig wie die GPU-Wahl. Die Empfehlungen:

Q4_K_M: Goldstandard für Consumer-GPUs. Nur 1–3 % Qualitätsverlust gegenüber FP16 bei ca. 72–75 % VRAM-Einsparung. Für die meisten Anwendungsfälle die richtige Wahl.
Q8_0: Nahezu kein Qualitätsverlust, aber doppelter VRAM-Bedarf gegenüber Q4_K_M. Sinnvoll wenn 16+ GB VRAM vorhanden und maximale Qualität gewünscht.
Q2/Q3 vermeiden: Messbare Halluzinationen und Qualitätsverluste, nur für sehr knappe VRAM-Situationen als Notlösung.
FP16/BF16: Maximale Qualität, benötigt aber doppelten VRAM gegenüber Q8_0. Nur für Workstation-GPUs praktisch.

Ollama einrichten und VRAM optimieren

Nach der Installation von Ollama (Download von ollama.com) kannst du mit wenigen Befehlen prüfen, ob die GPU erkannt wird und wie viel VRAM das Modell belegt:

# GPU-Status prüfen: Zeigt, welche GPU Ollama nutzt
ollama ps

# 7B-Modell starten (Q4_K_M – Standard, ca. 6 GB VRAM)
ollama run llama3.1:8b

# 14B-Modell mit expliziter Quantisierung (ca. 11 GB VRAM)
ollama run qwen3:14b-q4_K_M

# 32B-Modell (ca. 22 GB VRAM – benötigt RTX 5090 oder Multi-GPU)
ollama run qwen3:32b-q4_K_M
# Flash Attention aktivieren – reduziert VRAM-Verbrauch bei langen Kontexten
# Windows PowerShell (vor Ollama-Start setzen)
$env:OLLAMA_FLASH_ATTENTION=1

# KV-Cache-Quantisierung – halbiert den KV-Cache-VRAM-Bedarf
$env:OLLAMA_KV_CACHE_TYPE="q8_0"
# Noch aggressiver (reduziert auf ~1/3):
$env:OLLAMA_KV_CACHE_TYPE="q4_0"

# Multi-GPU für größere Modelle (zwei GPUs)
$env:CUDA_VISIBLE_DEVICES="0,1"
# VRAM-Auslastung prüfen (nvidia-smi – Teil des NVIDIA-Treibers)
nvidia-smi --query-gpu=name,memory.used,memory.total --format=csv

# Kontext-Größe anpassen (innerhalb des Chat-Interfaces)
/set parameter num_ctx 4096
# GPU-Offloading manuell konfigurieren (Modelfile erstellen)
# Datei: Modelfile
FROM llama3.1:8b
PARAMETER num_gpu 25
PARAMETER num_thread 8

# Modelfile bauen und starten
ollama create mein-modell -f Modelfile
ollama run mein-modell

Wichtig: Mit ollama ps prüfen, ob 100 % der Schichten auf der GPU laufen. Wenn Ollama Teile ins System-RAM auslagert, fällt die Inferenzgeschwindigkeit auf CPU-Tempo ab – oft 10–30× langsamer als GPU-Only.

Troubleshooting: Typische Fehler und Fallstricke

RTX 5060 Ti: Unbedingt die 16-GB-Variante kaufen

Es gibt zwei Varianten der RTX 5060 Ti: 8 GB (MSRP 379 USD) und 16 GB (MSRP 429 USD). Im KI-Betrieb ist die 8-GB-Variante kaum besser als die günstigere RTX 5060 8 GB. Die 16-GB-Variante kostet am MSRP nur 50 USD mehr, bietet aber für LLMs eine komplett andere Nutzbarkeit. Im deutschen Handel ist der Preisunterschied größer (ca. 539–650 EUR vs. 319–380 EUR), aber trotzdem klar die bessere Investition.

RTX 5080 für KI: überteuert

Trotz enormer Bandbreite (1.792 GB/s) hat die RTX 5080 die gleichen 16 GB VRAM wie die RTX 5070 Ti. Für KI-Workloads zahlt man 250–300 EUR Aufpreis für keinen VRAM-Vorteil. Wer ausschließlich LLMs betreibt, kauft besser die RTX 5070 Ti.

Kontextfenster skaliert VRAM drastisch

Ein 70B-Modell mit 32k Kontext benötigt ca. 32 GB zusätzlichen KV-Cache – und das auf einem System, das ohnehin schon 45+ GB für die Gewichte braucht. Auf Consumer-GPUs daher immer mit 4k–8k Kontext starten und num_ctx nur bei Bedarf erhöhen.

VRAM-Formel gilt für Gewichte, nicht Gesamtbedarf

Der Overhead durch KV-Cache, Aktivierungen und Runtime addiert je nach Kontext 1–5 GB und mehr. Immer 20–30 % Reserve über den Gewicht-VRAM einplanen und mit nvidia-smi die tatsächliche Belegung prüfen.

AMD-GPUs unter Windows: experimentell

AMD ROCm unter Windows ist nur über das Vulkan-Backend verfügbar und unterstützt viele Quantisierungsformate nicht nativ. Für Windows-basierte lokale KI ist NVIDIA CUDA das einzige stabile Ökosystem – AMD-GPUs als „günstige Alternative" führen meist zu deutlich schlechterer Inferenzleistung und fehlender Kompatibilität.

Netzteil vergessen

Die RTX 5080 benötigt mindestens 850 W Systemnetzteil, die RTX 5090 sogar 1.000 W. Viele bestehende Systeme mit 550–750 W Netzteil müssen bei einem Upgrade aufgerüstet werden – Mehrkosten von 80–150 EUR einkalkulieren.

Häufige Fragen

Reicht eine RTX 5060 8 GB für lokale KI?

Ja, aber nur für 7B-Modelle bei Q4_K_M (ca. 6–6,5 GB VRAM bei 8k Kontext). Der Betrieb von Llama 3.1 8B oder Mistral 7B ist möglich, aber ohne Spielraum für größere Kontextfenster. Für mehr Flexibilität ist die RTX 5060 Ti 16 GB die deutlich bessere Wahl.

Welche GPU ist der beste Einstieg für lokale KI unter 700 EUR?

Die RTX 5060 Ti 16 GB (Straßenpreis ca. 539–650 EUR) ist der beste Einstieg: 16 GB VRAM erlaubt 14B-Modelle wie Qwen3 14B oder DeepSeek-R1 14B zuverlässig – eine Klasse, die für professionelle Aufgaben bereits sehr leistungsfähig ist. Unbedingt die 16-GB-Variante kaufen, nicht die 8-GB-Variante.

Brauche ich für ein 70B-Modell wirklich zwei GPUs?

Ja. Llama 3.3 70B benötigt bei Q4_K_M ca. 45,6 GB VRAM – das übersteigt die 32 GB der RTX 5090. Optionen: zwei RTX 5090, eine Workstation-GPU (z. B. NVIDIA RTX Pro 6000 mit 96 GB) oder CPU-Offloading in Ollama mit 64+ GB System-RAM. Letztes ist machbar, aber mit erheblichem Geschwindigkeitsabfall verbunden.

Was ist der Unterschied zwischen Q4_K_M und Q8_0 in der Praxis?

Q4_K_M reduziert VRAM um ca. 72–75 % gegenüber FP16 mit nur 1–3 % Qualitätsverlust – empfohlener Standard. Q8_0 halbiert den VRAM-Bedarf gegenüber FP16 mit nahezu keinem Qualitätsverlust, aber doppeltem VRAM-Bedarf gegenüber Q4_K_M. Faustregel: Q4_K_M wenn VRAM knapp, Q8_0 wenn 16+ GB VRAM vorhanden und maximale Qualität gewünscht.

Lohnt sich die RTX 5090 für lokale KI?

Nur wenn 30B-Modelle komfortabel oder 70B-Modelle mit Multi-GPU das Ziel sind. Der Straßenpreis von 3.400–3.800 EUR ist sehr hoch. Für die meisten Anwender sind zwei RTX 5070 Ti (32 GB kombiniert, ca. 1.800–2.200 EUR) kosteneffizienter.

Was bewirkt OLLAMA_FLASH_ATTENTION und sollte ich es aktivieren?

Flash Attention ist ein optimierter Algorithmus für die Attention-Berechnung, der VRAM-Bedarf und Rechenzeit reduziert – besonders bei längeren Kontexten relevant. Aktivierung unter Windows PowerShell: $env:OLLAMA_FLASH_ATTENTION=1 vor dem Ollama-Start. Empfehlung: immer aktivieren, es gibt keine Nachteile bei unterstützten Modellen.

Fazit

Die RTX-5000-Blackwell-Serie bietet 2026 gute Consumer-Hardware für lokale KI – wenn man die richtige Karte wählt. Für die meisten Anwender ist die RTX 5060 Ti 16 GB der ideale Einstieg, die RTX 5070 Ti 16 GB der Sweet Spot für anspruchsvollere Anforderungen. Die RTX 5080 ist für reine KI-Workloads überteuert, die RTX 5090 nur für 30B+-Modelle sinnvoll. Wichtigste Merksätze: immer Q4_K_M als Standard verwenden, Kontextfenster klein halten, Straßenpreise auf Geizhals prüfen und das Netzteil nicht vergessen. Mit diesen Grundlagen und der VRAM-Formel kannst du jede Kaufentscheidung selbst durchrechnen.

GPU für lokale KI auswählen: VRAM-Bedarf, RTX-5000-Generationen und Budget-Empfehlungen 2026

Voraussetzungen

Die VRAM-Formel: Was wirklich zählt

Gemessene VRAM-Werte für aktuelle LLMs

RTX-5000-Überblick: Welche Karte für welche Aufgabe

Budget-Entscheidungsrahmen: Welche GPU für welches Ziel

Bis 700 EUR: RTX 5060 Ti 16 GB – der beste Einstieg

700–1.200 EUR: RTX 5070 Ti 16 GB – der Sweet Spot für ernsthafte KI

Finger weg für KI: RTX 5080 16 GB

Ab 3.400 EUR: RTX 5090 32 GB – nur für 30B+ Modelle

70B-Modelle: Kein einzelner Consumer-RTX reicht

Quantisierung: Q4_K_M als Goldstandard

Ollama einrichten und VRAM optimieren

Troubleshooting: Typische Fehler und Fallstricke

RTX 5060 Ti: Unbedingt die 16-GB-Variante kaufen

RTX 5080 für KI: überteuert

Kontextfenster skaliert VRAM drastisch

VRAM-Formel gilt für Gewichte, nicht Gesamtbedarf

AMD-GPUs unter Windows: experimentell

Netzteil vergessen

Häufige Fragen

Reicht eine RTX 5060 8 GB für lokale KI?

Welche GPU ist der beste Einstieg für lokale KI unter 700 EUR?

Brauche ich für ein 70B-Modell wirklich zwei GPUs?

Was ist der Unterschied zwischen Q4_K_M und Q8_0 in der Praxis?

Lohnt sich die RTX 5090 für lokale KI?

Was bewirkt OLLAMA_FLASH_ATTENTION und sollte ich es aktivieren?

Fazit

Weiterführende Anleitungen und Quellen

Voraussetzungen

Die VRAM-Formel: Was wirklich zählt

Gemessene VRAM-Werte für aktuelle LLMs

RTX-5000-Überblick: Welche Karte für welche Aufgabe

Budget-Entscheidungsrahmen: Welche GPU für welches Ziel

Bis 700 EUR: RTX 5060 Ti 16 GB – der beste Einstieg

700–1.200 EUR: RTX 5070 Ti 16 GB – der Sweet Spot für ernsthafte KI

Finger weg für KI: RTX 5080 16 GB

Ab 3.400 EUR: RTX 5090 32 GB – nur für 30B+ Modelle

70B-Modelle: Kein einzelner Consumer-RTX reicht

Quantisierung: Q4_K_M als Goldstandard

Ollama einrichten und VRAM optimieren

Troubleshooting: Typische Fehler und Fallstricke

RTX 5060 Ti: Unbedingt die 16-GB-Variante kaufen

RTX 5080 für KI: überteuert

Kontextfenster skaliert VRAM drastisch

VRAM-Formel gilt für Gewichte, nicht Gesamtbedarf

AMD-GPUs unter Windows: experimentell

Netzteil vergessen

Häufige Fragen

Reicht eine RTX 5060 8 GB für lokale KI?

Welche GPU ist der beste Einstieg für lokale KI unter 700 EUR?

Brauche ich für ein 70B-Modell wirklich zwei GPUs?

Was ist der Unterschied zwischen Q4_K_M und Q8_0 in der Praxis?

Lohnt sich die RTX 5090 für lokale KI?

Was bewirkt OLLAMA_FLASH_ATTENTION und sollte ich es aktivieren?

Fazit

Weiterführende Anleitungen und Quellen

Weiter lesen

Zigbee2MQTT mit Docker installieren: Verbindet Zigbee-Geräte ohne Hersteller-Gateway

Homebridge mit Docker installieren: Tausende nicht-HomeKit-fähige Geräte in Apple Home einbinden

Festplatten-Ausfall vorhersagen: SMART-Monitoring mit smartd und Scrutiny