Zum Hauptinhalt springen
S-EDV news
← Alle Anleitungen
📘 Anleitung Künstliche Intelligenz 26.06.2026 · 9 min Lesezeit

Qwen3 lokal betreiben: 4B bis 32B per Ollama und vLLM mit Thinking-Mode

Alibabas Qwen3 bietet einen schaltbaren Thinking-Mode: Ein Modell wechselt per /think zwischen Chain-of-Thought-Reasoning und direkten Antworten. Diese Anleitung zeigt Deployment per Ollama oder vLLM auf Consumer-GPUs – mit VRAM-Tabelle für 4B bis 32B.

Qwen3 lokal betreiben mit 4B bis 32B Modellen, Ollama und vLLM, Thinking Mode, lokaler GPU Inferenz, Modellverwaltung und API Nutzung.

Alibabas Qwen3-Modellfamilie (veröffentlicht April 2025) bringt ein Feature mit, das bisher kein anderes Open-Source-Modell so elegant gelöst hat: einen schaltbaren Thinking-Mode. Statt zwischen einem Reasoning-Modell (langsam, tiefgründig) und einem Chat-Modell (schnell, direkt) zu wählen, schaltest du mit einem einzigen Token innerhalb desselben Modells um. Für KMU-Admins und ambitionierte Selfhoster bedeutet das: ein Modell, zwei Persönlichkeiten – und das auf Consumer-Hardware ab einer RTX 3060.

Voraussetzungen

  1. GPU (NVIDIA empfohlen): Mindestens 6 GB VRAM für das 8B-Modell; 12 GB für 14B; 24 GB für 32B. CPU-Betrieb ist möglich, aber 10–50× langsamer – für produktiven Einsatz ungeeignet.
  2. RAM: Mindestens 16 GB Arbeitsspeicher, 32 GB empfohlen für größere Modelle.
  3. Speicherplatz: Mindestens 10 GB für 8B, mindestens 25 GB für 32B (plus Ollama-Cache-Ordner).
  4. Betriebssystem: Linux empfohlen (insbesondere für vLLM); Ollama läuft auch unter Windows und macOS.
  5. Ollama-Weg: Ollama installiert (aktuelle stable-Version); keine Python-Kenntnisse erforderlich.
  6. vLLM-Weg: Python 3.10+, CUDA-Toolkit, vllm >= 0.8.4 (ältere Versionen kennen --reasoning-parser qwen3 nicht).
  7. Internetverbindung: Für den initialen Modell-Download erforderlich; danach vollständig offline nutzbar.
  8. NVIDIA-Treiber: Aktuell halten (für CUDA-Support bei vLLM).

Schritt 1: VRAM-Bedarf und Modellwahl

Bevor du einen einzigen Befehl ausführst, lohnt sich ein Blick auf die VRAM-Tabelle. Die angegebenen Werte beziehen sich auf das Ollama-Standard-Format GGUF Q4_K_M und gelten ohne Kontext-Cache. Bei langen Gesprächen (volle 32K Token) steigt der VRAM-Bedarf spürbar – plane daher Puffer ein.

ModellParameterOllama-TagGröße (Q4)VRAM min.Empfohlene GPU
qwen3:4b4Bqwen3:4b2,5 GB4 GBRTX 3060 8 GB / moderne iGPU
qwen3:8b8Bqwen3:8b5,2 GB6 GBRTX 3060 12 GB / RX 7600 8 GB
qwen3:14b14Bqwen3:14b9,3 GB10 GBRTX 4070 12 GB / RTX 3080 10 GB
qwen3:32b32Bqwen3:32b20 GB20 GBRTX 4090 24 GB / RTX 3090 24 GB
qwen3:30b-a3b30B MoEqwen3:30b19 GB20 GBRTX 4090 24 GB

Empfehlung für den KMU-Einstieg: Das 8B-Modell ist der Sweet Spot – es passt in eine RTX 3060 (12 GB), liefert brauchbare Reasoning-Qualität im Thinking-Mode und ist mit ~5,2 GB schnell heruntergeladen. Das 14B-Modell ist die nächste Stufe für Aufgaben, bei denen mehr Tiefe gefragt ist; die 32B-Variante erreicht laut Benchmark das Niveau von Qwen2.5-72B und schlägt DeepSeek-R1 auf 17 von 23 Tests – vorausgesetzt, eine RTX 4090 ist vorhanden.

Achtung MoE-Modell: Der 30B-A3B-Typ nutzt zwar nur 3B Parameter pro Inferenzschritt, benötigt aber trotzdem ~19–20 GB VRAM für das gesamte Modellgewicht. Er ist keine VRAM-Sparoption, sondern bietet höhere Durchsatzrate bei gleichem Speicherbedarf.

Schritt 2: Ollama installieren und Modell laden

Ollama ist der einfachste Weg zu Qwen3 – keine Python-Umgebung, keine CUDA-Konfiguration von Hand. Der Dienst läuft im Hintergrund und stellt eine lokale REST-API bereit.

# Ollama installieren (Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh

# Unter Windows: Installer von https://ollama.com/download herunterladen

Nach der Installation lädst du das gewünschte Modell herunter. Ollama speichert es im lokalen Cache und startet es bei Bedarf automatisch.

# Modell herunterladen (wähle passend zu deinem VRAM)
ollama pull qwen3:4b    # 2,5 GB – für schwache GPUs / CPU-Fallback
ollama pull qwen3:8b    # 5,2 GB – Empfehlung für RTX 3060 12 GB
ollama pull qwen3:14b   # 9,3 GB – für RTX 4070 / RTX 3080
ollama pull qwen3:32b   # 20 GB  – für RTX 4090 / RTX 3090

Verifizieren: Nach dem Download zeigt ollama list das Modell mit Größe und Änderungsdatum. Beispielausgabe:

$ ollama list
NAME            ID              SIZE    MODIFIED
qwen3:8b        a50fd94g3a2c    5.2 GB  2 minutes ago

Schritt 3: Qwen3 per Ollama starten und den Thinking-Mode nutzen

Mit ollama run startest du eine interaktive Chat-Session direkt im Terminal. Der Thinking-Mode ist standardmäßig aktiv – das Modell gibt vor jeder Antwort einen <think>...</think>-Block aus. Für einfache Aufgaben ist das häufig unnötig und verlangsamt die Antwort spürbar.

# Chat starten
ollama run qwen3:8b

# Im Chat: Thinking-Mode pro Turn deaktivieren (Soft Switch)
>>> /no_think Erkläre mir DSGVO-Grundlagen in drei Sätzen.

# Thinking-Mode wieder aktivieren für komplexe Aufgaben
>>> /think Analysiere diesen Python-Code auf Sicherheitslücken: ...

Der Soft Switch per Prompt wirkt nur für den jeweiligen Turn – beim nächsten Nachrichtenwechsel greift wieder die Modell-Standardeinstellung (Thinking aktiv). Das ist ideal, wenn du mal schnell eine Frage beantwortet haben möchtest, ohne den Modus dauerhaft zu ändern.

Thinking-Mode dauerhaft deaktivieren per Modelfile

Wenn du Qwen3 vorwiegend als schnellen Assistenten ohne Reasoning-Overhead nutzen möchtest, erstellst du ein angepasstes Modell-Image über eine Modelfile:

# Datei „Modelfile" erstellen (Inhalt):
FROM qwen3:8b
SYSTEM "You are a helpful assistant. /no_think"
# Daraus ein neues lokales Modell bauen
ollama create qwen3-8b-nothink -f Modelfile

# Gebautes Modell starten
ollama run qwen3-8b-nothink

Wichtiger Hinweis: Dieser Modelfile-Trick funktioniert als Workaround und ist kein offiziell dokumentiertes Ollama-Feature. Er kann sich mit zukünftigen Ollama-Updates ändern.

Verifizieren: Starte ollama run qwen3-8b-nothink und stelle eine beliebige Frage. Die Antwort sollte direkt beginnen, ohne <think>-Block davor.

Schritt 4: vLLM als produktiver API-Server

Ollama eignet sich gut für einzelne Benutzer am Desktop. Für den Produktivbetrieb – mehrere gleichzeitige Anfragen, Token-Streaming, Integration in bestehende Anwendungen über die OpenAI-kompatible API – ist vLLM die bessere Wahl. Voraussetzung ist vllm >= 0.8.4; ältere Versionen kennen den --reasoning-parser qwen3-Flag nicht.

# vLLM installieren (in einer virtuellen Umgebung empfohlen)
pip install "vllm>=0.8.4"
# API-Server starten – Thinking-Mode aktiv (Standard)
vllm serve Qwen/Qwen3-8B \
  --port 8000 \
  --enable-reasoning \
  --reasoning-parser qwen3
# Thinking-Mode serverseitig deaktivieren (für alle Anfragen)
vllm serve Qwen/Qwen3-8B \
  --port 8000 \
  --reasoning-parser qwen3 \
  --default-chat-template-kwargs '{"enable_thinking": false}'
# 32B-Modell mit erweitertem Kontext (131K Token via YaRN-Scaling)
vllm serve Qwen/Qwen3-32B \
  --port 8000 \
  --enable-reasoning \
  --reasoning-parser qwen3 \
  --rope-scaling '{"rope_type":"yarn","factor":4.0}' \
  --max-model-len 131072

Verifizieren: Nach dem Start kannst du den Server mit einem einfachen curl-Aufruf testen:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-8B",
    "messages": [{"role": "user", "content": "/no_think Was ist VRAM?"}]
  }'

Die Antwort sollte ein valides JSON-Objekt mit einem choices-Array zurückgeben. Prüfe, dass das Feld reasoning_content leer ist (Thinking deaktiviert) oder einen Denkprozess enthält (Thinking aktiv).

Schritt 5: Thinking-Mode per Python-Client steuern

Der eleganteste Weg im Produktivbetrieb ist die pro-Request-Steuerung über den Python-Client. So kann deine Anwendung für komplexe Anfragen Thinking aktivieren und für einfache Lookup-Fragen direkt antworten lassen – ohne den Server neu zu starten.

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="token-abc123"  # beliebiger Wert bei lokalem Betrieb
)

# Thinking-Mode per Request aktivieren
response = client.chat.completions.create(
    model="Qwen/Qwen3-8B",
    messages=[{"role": "user", "content": "Erkläre GAN-Netze."}],
    extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)

# Thinking-Mode per Request deaktivieren
response_schnell = client.chat.completions.create(
    model="Qwen/Qwen3-8B",
    messages=[{"role": "user", "content": "Was ist der Hauptsitz von Alibaba?"}],
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)

Beachte die empfohlenen Sampling-Parameter: Im Thinking-Mode solltest du temperature=0.6, top_p=0.95, top_k=20 verwenden. Greedy Decoding (temperature=0) führt im Thinking-Mode zu Endlosschleifen – ein häufiger Fallstrick. Im Non-Thinking-Mode empfehlen sich temperature=0.7, top_p=0.8, top_k=20.

Schritt 6: Übersicht aller Thinking-Mode-Schalter

MethodeScopeSyntax / ParameterEinsatz
Soft Switch (Prompt)Pro Turn/think oder /no_think im NutzerpromptOllama-Chat, API
Hard Switch (API)Pro Requestextra_body={"chat_template_kwargs": {"enable_thinking": False}}vLLM Python-Client
Server-DefaultGesamter Server--default-chat-template-kwargs '{"enable_thinking": false}'vLLM-Startbefehl
Ollama ModelfileDauerhaft (Modell-Image)SYSTEM "/no_think" in Modelfile + ollama createLokaler Ollama-Betrieb
SGLangPro Server--reasoning-parser qwen3 (Thinking aktiv per Standard)SGLang-Deployment

Troubleshooting / Typische Fehler

  1. Thinking-Mode erzeugt endlose Ausgabe: Fast immer ein Sampling-Problem. Stelle sicher, dass temperature >= 0.6 gesetzt ist. Greedy Decoding (temperature=0) ist im Thinking-Mode verboten – das Modell läuft in Wiederholungsschleifen.
  2. --reasoning-parser qwen3 nicht gefunden: Du verwendest vLLM < 0.8.4. Aktualisiere mit pip install --upgrade "vllm>=0.8.4".
  3. Modell wird nicht vollständig in die GPU geladen (CPU-Fallback): Der VRAM reicht nicht aus. Prüfe mit nvidia-smi, wie viel VRAM belegt ist. Wechsle zu einem kleineren Modell oder aktiviere CPU-Offloading bewusst.
  4. Zu wenig Speicherplatz beim Download: Ollama legt das Modell standardmäßig unter ~/.ollama/models ab. Bei 32B sind das 20 GB. Setze OLLAMA_MODELS=/pfad/mit/platz als Umgebungsvariable vor dem Start.
  5. Kontextlänge bleibt bei 32K trotz YaRN: Das --rope-scaling-Flag ist im vLLM-Startbefehl erforderlich. Ohne es bleibt der Kontext auf 32.768 Token begrenzt. Die YaRN-Erweiterung auf 131.072 Token funktioniert nur mit vLLM und SGLang, nicht mit Ollama-Standard.
  6. Schlechte Ausgabequalität im Thinking-Mode: Im Thinking-Mode darf top_p nicht auf 1.0 gesetzt werden. Nutze die empfohlenen Werte (TopP 0.95, TopK 20).
  7. Ollama Modelfile-Trick funktioniert nach Update nicht mehr: Das SYSTEM "/no_think"-Muster ist ein Workaround. Falls es nach einem Ollama-Update nicht mehr greift, nutze den Soft Switch (/no_think) direkt im Prompt oder wechsle zu vLLM für dauerhaftes serverseitiges Deaktivieren.

Häufige Fragen

Kann ich Qwen3 kommerziell nutzen?

Ja. Alle sechs dichten Modelle (0,6B bis 32B) und die MoE-Varianten sind unter der Apache-2.0-Lizenz veröffentlicht. Kommerzielle Nutzung ist ausdrücklich erlaubt – auch ohne Rückfrage bei Alibaba. Das ist ein wesentlicher Unterschied zu Modellen mit Community-Lizenzen.

Wann sollte ich Thinking-Mode aktivieren, wann deaktivieren?

Aktiviere Thinking für Aufgaben, die echtes Schlussfolgern erfordern: Mathematik, Code-Debugging, rechtliche oder technische Analyse, mehrstufige Planung. Deaktiviere Thinking für einfache Faktenfragen, Zusammenfassungen, Übersetzungen und alles, wo Antwortgeschwindigkeit wichtiger ist als Tiefe. Der Overhead durch den <think>-Block ist erheblich – für einen schnellen Chatbot ohne komplexe Aufgaben kostet er Zeit ohne Mehrwert.

Welches Modell passt zu einer RTX 3080 (10 GB VRAM)?

Das 14B-Modell (Q4, 9,3 GB) passt knapp in den VRAM und läuft gut. Das 8B-Modell läuft komfortabler und lässt mehr Puffer für den Kontext-Cache. Das 32B-Modell passt ohne CPU-Offloading nicht vollständig in 10 GB VRAM.

Was ist der Unterschied zwischen Ollama und vLLM?

Ollama ist für den einfachen lokalen Betrieb optimiert: ein Benutzer, Desktop-Verwendung, keine Python-Kenntnisse nötig. vLLM ist für den Produktivbetrieb gedacht: mehrere gleichzeitige Anfragen, Batch-Verarbeitung, OpenAI-kompatibler Endpunkt für bestehende Anwendungen. vLLM erfordert Linux und Python-Kenntnisse, bietet aber deutlich mehr Kontrollmöglichkeiten – inklusive der per-Request-Steuerung des Thinking-Mode.

Kann ich den Kontext auf 131K Token erweitern?

Ja, aber nur mit vLLM oder SGLang über YaRN-Scaling. Füge beim vLLM-Start --rope-scaling '{"rope_type":"yarn","factor":4.0}' --max-model-len 131072 hinzu. Denk daran: Ein voller 131K-Token-Kontext erhöht den VRAM-Bedarf erheblich über die Basiswerte der Tabelle hinaus.

Fazit

Qwen3 ist ein echter Fortschritt für den lokalen KI-Betrieb in KMU und Heimlaboren. Der schaltbare Thinking-Mode macht das Modell flexibel genug für den Alltag: eine Instanz für schnelle Chat-Aufgaben und tiefe Analyse-Runs, ohne zwischen verschiedenen Modellen wechseln zu müssen. Die Apache-2.0-Lizenz beseitigt kommerzielle Hürden vollständig.

Für den Einstieg empfiehlt sich qwen3:8b per Ollama – drei Befehle, kein Python, kein CUDA-Setup. Wer einen internen API-Server für mehrere Nutzer aufbauen möchte, greift zu vLLM mit dem --reasoning-parser qwen3-Flag und steuert den Thinking-Mode gezielt pro Request. Die 32B-Variante liefert 72B-Niveau-Qualität von einer RTX 4090 aus – ein beeindruckendes Verhältnis für lokale Deployments.

Weiterführende Anleitungen und Quellen

  1. DeepSeek R1 lokal betreiben: Modellwahl, Quantisierung und VRAM-Bedarf
  2. Ollama-Modelle 2026 richtig auswählen: VRAM, Quantisierung und Modellvergleich für KMU
  3. Offene LLMs selbst serven mit vLLM (Llama, Mistral, Hermes)
  4. GGUF, AWQ und GPTQ erklärt: Welches Quantisierungsformat für welchen Zweck
  5. Qwen3: Think Deeper, Act Faster – Offizieller Qwen-Blog (Alibaba)
  6. vLLM Reasoning Outputs – Offizielle Dokumentation
  7. Qwen3 Ollama Library – Modell-Tags und Größen

Passende Anleitungen auf S-EDV

  1. GPT-5.5-Cyber: OpenAI startet Sicherheitsmodell als Konkurrenz zu Anthropic Myth
  2. Gentlemen Ransomware: EDR-Killer deaktivieren Sicherheitssoftware von 48 Herstel
  3. Anthropic veröffentlicht Claude Fable 5 und Mythos 5: Frontier-Modell mit Sicher