Qwen3 lokal betreiben: 4B bis 32B per Ollama und vLLM mit Thinking-Mode
Alibabas Qwen3 bietet einen schaltbaren Thinking-Mode: Ein Modell wechselt per /think zwischen Chain-of-Thought-Reasoning und direkten Antworten. Diese Anleitung zeigt Deployment per Ollama oder vLLM auf Consumer-GPUs – mit VRAM-Tabelle für 4B bis 32B.

Alibabas Qwen3-Modellfamilie (veröffentlicht April 2025) bringt ein Feature mit, das bisher kein anderes Open-Source-Modell so elegant gelöst hat: einen schaltbaren Thinking-Mode. Statt zwischen einem Reasoning-Modell (langsam, tiefgründig) und einem Chat-Modell (schnell, direkt) zu wählen, schaltest du mit einem einzigen Token innerhalb desselben Modells um. Für KMU-Admins und ambitionierte Selfhoster bedeutet das: ein Modell, zwei Persönlichkeiten – und das auf Consumer-Hardware ab einer RTX 3060.
Voraussetzungen
- GPU (NVIDIA empfohlen): Mindestens 6 GB VRAM für das 8B-Modell; 12 GB für 14B; 24 GB für 32B. CPU-Betrieb ist möglich, aber 10–50× langsamer – für produktiven Einsatz ungeeignet.
- RAM: Mindestens 16 GB Arbeitsspeicher, 32 GB empfohlen für größere Modelle.
- Speicherplatz: Mindestens 10 GB für 8B, mindestens 25 GB für 32B (plus Ollama-Cache-Ordner).
- Betriebssystem: Linux empfohlen (insbesondere für vLLM); Ollama läuft auch unter Windows und macOS.
- Ollama-Weg: Ollama installiert (aktuelle stable-Version); keine Python-Kenntnisse erforderlich.
- vLLM-Weg: Python 3.10+, CUDA-Toolkit,
vllm >= 0.8.4(ältere Versionen kennen--reasoning-parser qwen3nicht). - Internetverbindung: Für den initialen Modell-Download erforderlich; danach vollständig offline nutzbar.
- NVIDIA-Treiber: Aktuell halten (für CUDA-Support bei vLLM).
Schritt 1: VRAM-Bedarf und Modellwahl
Bevor du einen einzigen Befehl ausführst, lohnt sich ein Blick auf die VRAM-Tabelle. Die angegebenen Werte beziehen sich auf das Ollama-Standard-Format GGUF Q4_K_M und gelten ohne Kontext-Cache. Bei langen Gesprächen (volle 32K Token) steigt der VRAM-Bedarf spürbar – plane daher Puffer ein.
| Modell | Parameter | Ollama-Tag | Größe (Q4) | VRAM min. | Empfohlene GPU |
|---|---|---|---|---|---|
| qwen3:4b | 4B | qwen3:4b | 2,5 GB | 4 GB | RTX 3060 8 GB / moderne iGPU |
| qwen3:8b | 8B | qwen3:8b | 5,2 GB | 6 GB | RTX 3060 12 GB / RX 7600 8 GB |
| qwen3:14b | 14B | qwen3:14b | 9,3 GB | 10 GB | RTX 4070 12 GB / RTX 3080 10 GB |
| qwen3:32b | 32B | qwen3:32b | 20 GB | 20 GB | RTX 4090 24 GB / RTX 3090 24 GB |
| qwen3:30b-a3b | 30B MoE | qwen3:30b | 19 GB | 20 GB | RTX 4090 24 GB |
Empfehlung für den KMU-Einstieg: Das 8B-Modell ist der Sweet Spot – es passt in eine RTX 3060 (12 GB), liefert brauchbare Reasoning-Qualität im Thinking-Mode und ist mit ~5,2 GB schnell heruntergeladen. Das 14B-Modell ist die nächste Stufe für Aufgaben, bei denen mehr Tiefe gefragt ist; die 32B-Variante erreicht laut Benchmark das Niveau von Qwen2.5-72B und schlägt DeepSeek-R1 auf 17 von 23 Tests – vorausgesetzt, eine RTX 4090 ist vorhanden.
Achtung MoE-Modell: Der 30B-A3B-Typ nutzt zwar nur 3B Parameter pro Inferenzschritt, benötigt aber trotzdem ~19–20 GB VRAM für das gesamte Modellgewicht. Er ist keine VRAM-Sparoption, sondern bietet höhere Durchsatzrate bei gleichem Speicherbedarf.
Schritt 2: Ollama installieren und Modell laden
Ollama ist der einfachste Weg zu Qwen3 – keine Python-Umgebung, keine CUDA-Konfiguration von Hand. Der Dienst läuft im Hintergrund und stellt eine lokale REST-API bereit.
# Ollama installieren (Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh
# Unter Windows: Installer von https://ollama.com/download herunterladenNach der Installation lädst du das gewünschte Modell herunter. Ollama speichert es im lokalen Cache und startet es bei Bedarf automatisch.
# Modell herunterladen (wähle passend zu deinem VRAM)
ollama pull qwen3:4b # 2,5 GB – für schwache GPUs / CPU-Fallback
ollama pull qwen3:8b # 5,2 GB – Empfehlung für RTX 3060 12 GB
ollama pull qwen3:14b # 9,3 GB – für RTX 4070 / RTX 3080
ollama pull qwen3:32b # 20 GB – für RTX 4090 / RTX 3090Verifizieren: Nach dem Download zeigt ollama list das Modell mit Größe und Änderungsdatum. Beispielausgabe:
$ ollama list
NAME ID SIZE MODIFIED
qwen3:8b a50fd94g3a2c 5.2 GB 2 minutes agoSchritt 3: Qwen3 per Ollama starten und den Thinking-Mode nutzen
Mit ollama run startest du eine interaktive Chat-Session direkt im Terminal. Der Thinking-Mode ist standardmäßig aktiv – das Modell gibt vor jeder Antwort einen <think>...</think>-Block aus. Für einfache Aufgaben ist das häufig unnötig und verlangsamt die Antwort spürbar.
# Chat starten
ollama run qwen3:8b
# Im Chat: Thinking-Mode pro Turn deaktivieren (Soft Switch)
>>> /no_think Erkläre mir DSGVO-Grundlagen in drei Sätzen.
# Thinking-Mode wieder aktivieren für komplexe Aufgaben
>>> /think Analysiere diesen Python-Code auf Sicherheitslücken: ...Der Soft Switch per Prompt wirkt nur für den jeweiligen Turn – beim nächsten Nachrichtenwechsel greift wieder die Modell-Standardeinstellung (Thinking aktiv). Das ist ideal, wenn du mal schnell eine Frage beantwortet haben möchtest, ohne den Modus dauerhaft zu ändern.
Thinking-Mode dauerhaft deaktivieren per Modelfile
Wenn du Qwen3 vorwiegend als schnellen Assistenten ohne Reasoning-Overhead nutzen möchtest, erstellst du ein angepasstes Modell-Image über eine Modelfile:
# Datei „Modelfile" erstellen (Inhalt):
FROM qwen3:8b
SYSTEM "You are a helpful assistant. /no_think"
# Daraus ein neues lokales Modell bauen
ollama create qwen3-8b-nothink -f Modelfile
# Gebautes Modell starten
ollama run qwen3-8b-nothinkWichtiger Hinweis: Dieser Modelfile-Trick funktioniert als Workaround und ist kein offiziell dokumentiertes Ollama-Feature. Er kann sich mit zukünftigen Ollama-Updates ändern.
Verifizieren: Starte ollama run qwen3-8b-nothink und stelle eine beliebige Frage. Die Antwort sollte direkt beginnen, ohne <think>-Block davor.
Schritt 4: vLLM als produktiver API-Server
Ollama eignet sich gut für einzelne Benutzer am Desktop. Für den Produktivbetrieb – mehrere gleichzeitige Anfragen, Token-Streaming, Integration in bestehende Anwendungen über die OpenAI-kompatible API – ist vLLM die bessere Wahl. Voraussetzung ist vllm >= 0.8.4; ältere Versionen kennen den --reasoning-parser qwen3-Flag nicht.
# vLLM installieren (in einer virtuellen Umgebung empfohlen)
pip install "vllm>=0.8.4"
# API-Server starten – Thinking-Mode aktiv (Standard)
vllm serve Qwen/Qwen3-8B \
--port 8000 \
--enable-reasoning \
--reasoning-parser qwen3
# Thinking-Mode serverseitig deaktivieren (für alle Anfragen)
vllm serve Qwen/Qwen3-8B \
--port 8000 \
--reasoning-parser qwen3 \
--default-chat-template-kwargs '{"enable_thinking": false}'
# 32B-Modell mit erweitertem Kontext (131K Token via YaRN-Scaling)
vllm serve Qwen/Qwen3-32B \
--port 8000 \
--enable-reasoning \
--reasoning-parser qwen3 \
--rope-scaling '{"rope_type":"yarn","factor":4.0}' \
--max-model-len 131072Verifizieren: Nach dem Start kannst du den Server mit einem einfachen curl-Aufruf testen:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-8B",
"messages": [{"role": "user", "content": "/no_think Was ist VRAM?"}]
}'Die Antwort sollte ein valides JSON-Objekt mit einem choices-Array zurückgeben. Prüfe, dass das Feld reasoning_content leer ist (Thinking deaktiviert) oder einen Denkprozess enthält (Thinking aktiv).
Schritt 5: Thinking-Mode per Python-Client steuern
Der eleganteste Weg im Produktivbetrieb ist die pro-Request-Steuerung über den Python-Client. So kann deine Anwendung für komplexe Anfragen Thinking aktivieren und für einfache Lookup-Fragen direkt antworten lassen – ohne den Server neu zu starten.
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="token-abc123" # beliebiger Wert bei lokalem Betrieb
)
# Thinking-Mode per Request aktivieren
response = client.chat.completions.create(
model="Qwen/Qwen3-8B",
messages=[{"role": "user", "content": "Erkläre GAN-Netze."}],
extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)
# Thinking-Mode per Request deaktivieren
response_schnell = client.chat.completions.create(
model="Qwen/Qwen3-8B",
messages=[{"role": "user", "content": "Was ist der Hauptsitz von Alibaba?"}],
extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)Beachte die empfohlenen Sampling-Parameter: Im Thinking-Mode solltest du temperature=0.6, top_p=0.95, top_k=20 verwenden. Greedy Decoding (temperature=0) führt im Thinking-Mode zu Endlosschleifen – ein häufiger Fallstrick. Im Non-Thinking-Mode empfehlen sich temperature=0.7, top_p=0.8, top_k=20.
Schritt 6: Übersicht aller Thinking-Mode-Schalter
| Methode | Scope | Syntax / Parameter | Einsatz |
|---|---|---|---|
| Soft Switch (Prompt) | Pro Turn | /think oder /no_think im Nutzerprompt | Ollama-Chat, API |
| Hard Switch (API) | Pro Request | extra_body={"chat_template_kwargs": {"enable_thinking": False}} | vLLM Python-Client |
| Server-Default | Gesamter Server | --default-chat-template-kwargs '{"enable_thinking": false}' | vLLM-Startbefehl |
| Ollama Modelfile | Dauerhaft (Modell-Image) | SYSTEM "/no_think" in Modelfile + ollama create | Lokaler Ollama-Betrieb |
| SGLang | Pro Server | --reasoning-parser qwen3 (Thinking aktiv per Standard) | SGLang-Deployment |
Troubleshooting / Typische Fehler
- Thinking-Mode erzeugt endlose Ausgabe: Fast immer ein Sampling-Problem. Stelle sicher, dass
temperature >= 0.6gesetzt ist. Greedy Decoding (temperature=0) ist im Thinking-Mode verboten – das Modell läuft in Wiederholungsschleifen. --reasoning-parser qwen3nicht gefunden: Du verwendest vLLM < 0.8.4. Aktualisiere mitpip install --upgrade "vllm>=0.8.4".- Modell wird nicht vollständig in die GPU geladen (CPU-Fallback): Der VRAM reicht nicht aus. Prüfe mit
nvidia-smi, wie viel VRAM belegt ist. Wechsle zu einem kleineren Modell oder aktiviere CPU-Offloading bewusst. - Zu wenig Speicherplatz beim Download: Ollama legt das Modell standardmäßig unter
~/.ollama/modelsab. Bei 32B sind das 20 GB. SetzeOLLAMA_MODELS=/pfad/mit/platzals Umgebungsvariable vor dem Start. - Kontextlänge bleibt bei 32K trotz YaRN: Das
--rope-scaling-Flag ist im vLLM-Startbefehl erforderlich. Ohne es bleibt der Kontext auf 32.768 Token begrenzt. Die YaRN-Erweiterung auf 131.072 Token funktioniert nur mit vLLM und SGLang, nicht mit Ollama-Standard. - Schlechte Ausgabequalität im Thinking-Mode: Im Thinking-Mode darf
top_pnicht auf 1.0 gesetzt werden. Nutze die empfohlenen Werte (TopP 0.95, TopK 20). - Ollama Modelfile-Trick funktioniert nach Update nicht mehr: Das
SYSTEM "/no_think"-Muster ist ein Workaround. Falls es nach einem Ollama-Update nicht mehr greift, nutze den Soft Switch (/no_think) direkt im Prompt oder wechsle zu vLLM für dauerhaftes serverseitiges Deaktivieren.
Häufige Fragen
Kann ich Qwen3 kommerziell nutzen?
Ja. Alle sechs dichten Modelle (0,6B bis 32B) und die MoE-Varianten sind unter der Apache-2.0-Lizenz veröffentlicht. Kommerzielle Nutzung ist ausdrücklich erlaubt – auch ohne Rückfrage bei Alibaba. Das ist ein wesentlicher Unterschied zu Modellen mit Community-Lizenzen.
Wann sollte ich Thinking-Mode aktivieren, wann deaktivieren?
Aktiviere Thinking für Aufgaben, die echtes Schlussfolgern erfordern: Mathematik, Code-Debugging, rechtliche oder technische Analyse, mehrstufige Planung. Deaktiviere Thinking für einfache Faktenfragen, Zusammenfassungen, Übersetzungen und alles, wo Antwortgeschwindigkeit wichtiger ist als Tiefe. Der Overhead durch den <think>-Block ist erheblich – für einen schnellen Chatbot ohne komplexe Aufgaben kostet er Zeit ohne Mehrwert.
Welches Modell passt zu einer RTX 3080 (10 GB VRAM)?
Das 14B-Modell (Q4, 9,3 GB) passt knapp in den VRAM und läuft gut. Das 8B-Modell läuft komfortabler und lässt mehr Puffer für den Kontext-Cache. Das 32B-Modell passt ohne CPU-Offloading nicht vollständig in 10 GB VRAM.
Was ist der Unterschied zwischen Ollama und vLLM?
Ollama ist für den einfachen lokalen Betrieb optimiert: ein Benutzer, Desktop-Verwendung, keine Python-Kenntnisse nötig. vLLM ist für den Produktivbetrieb gedacht: mehrere gleichzeitige Anfragen, Batch-Verarbeitung, OpenAI-kompatibler Endpunkt für bestehende Anwendungen. vLLM erfordert Linux und Python-Kenntnisse, bietet aber deutlich mehr Kontrollmöglichkeiten – inklusive der per-Request-Steuerung des Thinking-Mode.
Kann ich den Kontext auf 131K Token erweitern?
Ja, aber nur mit vLLM oder SGLang über YaRN-Scaling. Füge beim vLLM-Start --rope-scaling '{"rope_type":"yarn","factor":4.0}' --max-model-len 131072 hinzu. Denk daran: Ein voller 131K-Token-Kontext erhöht den VRAM-Bedarf erheblich über die Basiswerte der Tabelle hinaus.
Fazit
Qwen3 ist ein echter Fortschritt für den lokalen KI-Betrieb in KMU und Heimlaboren. Der schaltbare Thinking-Mode macht das Modell flexibel genug für den Alltag: eine Instanz für schnelle Chat-Aufgaben und tiefe Analyse-Runs, ohne zwischen verschiedenen Modellen wechseln zu müssen. Die Apache-2.0-Lizenz beseitigt kommerzielle Hürden vollständig.
Für den Einstieg empfiehlt sich qwen3:8b per Ollama – drei Befehle, kein Python, kein CUDA-Setup. Wer einen internen API-Server für mehrere Nutzer aufbauen möchte, greift zu vLLM mit dem --reasoning-parser qwen3-Flag und steuert den Thinking-Mode gezielt pro Request. Die 32B-Variante liefert 72B-Niveau-Qualität von einer RTX 4090 aus – ein beeindruckendes Verhältnis für lokale Deployments.
Weiterführende Anleitungen und Quellen
- DeepSeek R1 lokal betreiben: Modellwahl, Quantisierung und VRAM-Bedarf
- Ollama-Modelle 2026 richtig auswählen: VRAM, Quantisierung und Modellvergleich für KMU
- Offene LLMs selbst serven mit vLLM (Llama, Mistral, Hermes)
- GGUF, AWQ und GPTQ erklärt: Welches Quantisierungsformat für welchen Zweck
- Qwen3: Think Deeper, Act Faster – Offizieller Qwen-Blog (Alibaba)
- vLLM Reasoning Outputs – Offizielle Dokumentation
- Qwen3 Ollama Library – Modell-Tags und Größen