Hand aufs Herz: Wenn du Claude Code bisher nur über die Anthropic-API kennst, denkst du wahrscheinlich, das Tool ist fest an die Cloud gebunden. Falsch gedacht. Seit Ollama in Version 0.14.0 die Anthropic Messages API-Kompatibilität implementiert hat, kannst du Claude Code vollständig lokal auf deinem eigenen Rechner betreiben – ohne API-Kosten, ohne dass dein Code irgendwohin abfließt. Mit einer RTX 4090 läuft das richtig flüssig – aber nur, wenn du die häufigste Falle vermeidest: das Context-Length-Problem. Wir zeigen dir den kompletten Setup, welche Modelle du Stand Mai 2026 wirklich nehmen solltest, und warum die Standard-Konfiguration in 90 % der Fälle versagt.
Claude Code lokal: Was wirklich funktioniert
Mit Ollama als Backend und der richtigen Konfiguration läuft der komplette Coding-Workflow auf deiner RTX 4090. Kein Token verlässt dein Netzwerk, keine API-Kosten, kein Vendor Lock-in. Die größte Falle ist allerdings nicht die Hardware – sondern eine fehlende Umgebungsvariable.
Wie geht das überhaupt – Claude Code ohne Anthropic?
Die Antwort steckt in einem cleveren Architektur-Detail: Claude Code ist als CLI-Tool darauf ausgelegt, mit der Anthropic Messages API zu sprechen. Es schickt Anfragen an einen HTTP-Endpunkt und erwartet Antworten in einem bestimmten Format. Welcher Server hinter diesem Endpunkt steht, ist Claude Code prinzipiell egal – Hauptsache, das API-Format passt.
Genau hier setzt Ollama an. Mit Version 0.14.0 (Januar 2026) hat das Open-Source-Tool die Anthropic Messages API-Kompatibilität implementiert. Du startest Ollama lokal auf localhost:11434, lädst dir ein Open-Source-Coding-Modell herunter, setzt drei Umgebungsvariablen in Claude Code – und schon spricht das Tool nicht mehr mit Anthropics Servern, sondern mit deinem lokalen Modell. Claude Code selbst merkt davon nichts. Es funktioniert weiter wie gewohnt: Dateien lesen, Code schreiben, Tests ausführen, Git-Operationen durchführen.
Die häufigste Falle: Context-Length
Ollama läuft standardmäßig mit nur 4.096 Tokens Context-Window. Der System-Prompt von Claude Code allein ist aber bereits 6.000 bis 10.000 Tokens lang – plus Tool-Definitionen für Read, Edit, Bash, Grep, Glob und TodoWrite. Wenn du Ollama mit Default-Werten startest, wird der Prompt sofort abgeschnitten, und Claude Code hängt sich auf, hallcuiniert oder gibt seltsame Fehler zurück.
Die offizielle Ollama-Dokumentation empfiehlt seit Mai 2026 mindestens OLLAMA_CONTEXT_LENGTH=65536 (64K) für Claude Code – nicht mehr 32K wie noch im Frühjahr. Setze diese Variable BEVOR du Ollama startest, sonst funktioniert das ganze Setup nicht zuverlässig.
Cloud-Variante (Standard)
- Anthropic-API mit Sonnet/Opus 4.x
- Maximale Modellqualität, frontier-level Reasoning
- Token-basierte Abrechnung – schnell teuer bei agentischen Workflows (50–200 €/Monat sind normal)
- Code wird an US-Server übertragen
- Internetverbindung zwingend erforderlich
- Lange Kontextfenster (200K+ Tokens nativ)
Lokale Variante (Ollama)
- Open-Source-Modelle wie GLM-4.7-Flash, Qwen3-Coder
- Sehr gute Qualität für 80 % der Daily-Coding-Tasks
- Keine API-Kosten – nur Stromkosten (~0,12 €/h Volllast)
- Code verlässt deinen Rechner nicht
- Komplett offline-fähig
- Kontextlänge muss manuell auf 64K+ gesetzt werden
RTX 4090 als Sweet Spot – was läuft darauf wirklich gut?
Mit 24 GB VRAM ist die RTX 4090 aktuell so etwas wie der goldene Standard für lokale Coding-Modelle. Sie schafft die Modelle, die qualitativ wirklich relevant sind, ohne dass du in den Bereich gebrauchter Workstation-Karten oder Multi-GPU-Setups vorstoßen musst. Der entscheidende Punkt: Es gibt mittlerweile mehrere 27B- bis 30B-Modelle, die im quantisierten Q4-Format zwischen 17 und 20 GB VRAM brauchen – das passt komfortabel auf eine 4090, mit Headroom für KV-Cache und 64K Kontext.
Performance auf einer einzelnen RTX 4090
Eine wichtige Klarstellung: Modelle wie Qwen3-Coder 30B und GLM-4.7-Flash sind Mixture-of-Experts (MoE). Das bedeutet, von den 30 Milliarden Gesamtparametern sind pro Token nur etwa 3 Milliarden aktiv. Das ist der Grund, warum diese Modelle auf einer 4090 so erstaunlich schnell laufen – du bekommst die Qualität eines deutlich größeren Modells bei der Geschwindigkeit eines kleinen. Genau das macht den lokalen Einsatz erst praktisch nutzbar.
Modellvergleich: Was sich seit Januar 2026 geändert hat
Die Lage hat sich seit dem ursprünglichen Setup deutlich gewandelt. GLM-4.7-Flash von Z.AI (Januar 2026) hat Qwen3-Coder in Coding-Benchmarks teils dramatisch überholt – vor allem bei SWE-Bench Verified mit 59,2 % gegenüber 22 % bei Qwen3-30B. Auch beim Tool Calling, was für agentische Workflows in Claude Code zentral ist, schneidet GLM-4.7 messbar zuverlässiger ab.
| Modell | VRAM (Q4) | SWE-Bench | Stärke | Speed (4090) |
|---|---|---|---|---|
glm-4.7-flash |
~17 GB | 59,2 % | Bestes Coding + Tool Calling Stand 2026 | 60–80 tok/s |
qwen3-coder:30b |
~17 GB | 22 % | Stabil bei langem Kontext, MoE | 73–87 tok/s |
qwen3.6:27b |
~17 GB | 77,2 %* | Bestes Reasoning, dichtes Modell | ~50–60 tok/s |
qwen2.5-coder:32b |
~20 GB | — | FIM Autocomplete-König, 92,7 % HumanEval | ~40 tok/s |
devstral-small-2 |
~14 GB | 68 % | Speziell für Agent-Workflows trainiert | ~50 tok/s |
qwen2.5-coder:7b |
~5 GB | — | Schnelle Snippets, einfache Tasks | ~150 tok/s |
Meine aktuelle Empfehlung Mai 2026: Starte mit GLM-4.7-Flash (MIT-Lizenz, dominiert die Coding-Benchmarks) als primäres Modell. Falls du Probleme mit langen Sessions hast, wechsle auf Qwen3-Coder 30B – das Modell hält die Performance bei 48K+ Kontext stabiler, ohne Performance-Cliffs. Beide passen auf eine 4090 und liegen bei rund 17 GB VRAM. * Qwen3.6 nutzt einen anderen Benchmark-Setup, deshalb sind Werte nicht direkt vergleichbar.
Setup Schritt für Schritt
Ollama installieren UND Context-Length setzen
Auf Linux ist die Installation eine Zeile. Auf Windows lädst du den Installer von ollama.com. Wichtig: Vor dem ersten Start muss die Context-Length-Variable gesetzt werden, sonst läuft Claude Code mit den Default-4K und das Setup ist faktisch unbrauchbar.
# Ollama installieren curl -fsSL https://ollama.com/install.sh | sh # KRITISCH: Context-Length VOR dem Start setzen export OLLAMA_CONTEXT_LENGTH=65536 # Service starten ollama serve # In neuem Terminal: Modell herunterladen (~17 GB) ollama pull glm-4.7-flash # oder: ollama pull qwen3-coder:30b
Permanente Konfiguration unter Linux: Die Variable in /etc/systemd/system/ollama.service.d/override.conf eintragen, damit sie auch bei einem Neustart des Ollama-Service erhalten bleibt: Environment="OLLAMA_CONTEXT_LENGTH=65536". Alternativ über ~/.bashrc bzw. ~/.zshrc, wenn du Ollama manuell startest.
Claude Code installieren
Anthropic hat den Native Installer als empfohlene Methode etabliert. Kein Node.js nötig. Nach der Installation ist claude als Befehl verfügbar.
# macOS / Linux / WSL curl -fsSL https://claude.ai/install.sh | bash # Windows PowerShell irm https://claude.ai/install.ps1 | iex # Verifizieren claude --version
Drei Umgebungsvariablen setzen
Nach offiziellem Ollama-Doc-Stand Mai 2026 brauchst du drei Variablen – nicht zwei. Die ANTHROPIC_API_KEY=““ wurde ergänzt, weil neuere Claude-Code-Versionen sonst versuchen, sich gegen die Anthropic-Cloud zu authentifizieren.
# Lokaler Ollama-Endpunkt statt Anthropic Cloud export ANTHROPIC_BASE_URL="http://localhost:11434" # Dummy-Token (Ollama prüft ihn nicht) export ANTHROPIC_AUTH_TOKEN="ollama" # Leere API-Key-Variable verhindert Cloud-Auth-Versuche export ANTHROPIC_API_KEY=""
Alternativ: settings.json nutzen
Wenn du die Konfiguration sauber im Claude-Settings-File haben willst statt in der Shell, geht das auch. Datei liegt unter ~/.claude/settings.json.
{
"env": {
"ANTHROPIC_BASE_URL": "http://localhost:11434",
"ANTHROPIC_AUTH_TOKEN": "ollama",
"ANTHROPIC_API_KEY": "",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
}
}
Mit Modell-Flag starten
Im Projektverzeichnis Claude Code mit dem --model-Flag aufrufen, damit das richtige lokale Modell genutzt wird. Ohne Flag versucht Claude Code, sein Default-Modell anzusprechen, was bei lokalem Setup nicht funktioniert.
# Im Projektverzeichnis cd ~/mein-projekt # Claude Code mit lokalem Modell starten claude --model glm-4.7-flash # In Claude Code prompten: # "Analysiere die Struktur dieses Projekts und schlage Verbesserungen vor"
Alternative Backends: Ollama ist nicht die einzige Option
Inzwischen unterstützen mehrere Backends die Anthropic-Messages-API nativ. Falls du mit Ollama Probleme hast – etwa Hänger bei längeren Sessions oder Auto-Compact-Issues – sind die Alternativen einen Blick wert. Alle laufen auf einer 4090 und sprechen Claude Code direkt ohne Proxy an.
Ollama (≥ v0.14.0)
Easiest-to-Setup. Ein-Zeilen-Installer, native Anthropic-Kompatibilität, riesige Modell-Library. Kleine Schwächen bei Streaming-Edge-Cases.
LM Studio (≥ 0.4.1)
Grafisches UI für Modell-Management, ebenfalls native Anthropic-Kompatibilität auf Port 1234. Empfohlen für Einsteiger, die ein UI bevorzugen.
vLLM
Production-grade Server mit offizieller Claude-Code-Integration. Braucht --enable-auto-tool-choice und passenden --tool-call-parser. Performance-King.
llama.cpp
Speed-Champion auf Apple Silicon. Streaming-Format etwas rougher als Ollama. Bei Problemen Fallback auf Ollama.
VRAM-Status im Blick behalten: Mit nvidia-smi in einem zweiten Terminal siehst du in Echtzeit, wie viel VRAM Ollama belegt. Bei einem 30B-Modell solltest du etwa 17–19 GB sehen, was auf einer 4090 noch 5–7 GB für Kontext und KV-Cache lässt – knapp genug für 64K Kontext bei einem MoE-Modell.
Wo sind die Grenzen des lokalen Setups?
Ehrlich bleiben gehört dazu. Lokale Open-Source-Modelle sind 2026 verdammt gut geworden – GLM-4.7-Flash erreicht auf SWE-Bench Verified Werte, die noch vor 18 Monaten nur Frontier-Cloud-Modellen vorbehalten waren. Aber es gibt klare Grenzen, die du kennen solltest, bevor du voll auf lokal umsteigst.
Bei komplexem Multi-File-Reasoning über große Codebases hinweg sind Anthropics Frontier-Modelle weiterhin überlegen. Wenn du eine Architektur-Entscheidung über zehn Module hinweg analysieren lässt oder ein subtiler Race-Condition-Bug in einem 200K-Zeilen-Repo zu finden ist, wirst du den Qualitätssprung zur Cloud merken. Auch die Kontextlänge bleibt ein Faktor: Claude Code mit Sonnet hat bis zu 200.000 Tokens Kontextfenster, lokale Modelle auf einer 4090 schaffen praktisch komfortabel 64K – was bei großen Refactorings tatsächlich limitiert.
Die Tool-Calling-Zuverlässigkeit ist ein weiterer Punkt. Auch wenn die neuen Modelle deutlich besser geworden sind, kommt es bei lokalen LLMs immer noch häufiger zu Fehlern in der Tool-Aufruf-Syntax als bei Anthropic Sonnet. Manche Modelle antworten mit <function=Skill> statt korrekt formatiertem JSON, und Claude Code kann mit solchen Antworten nichts anfangen. Wenn du wiederholt solche Probleme siehst, wechsle das Modell – GLM-4.7-Flash und Devstral haben hier deutlich bessere Werte als Qwen-Varianten.
Mein Praxis-Vorschlag: Hybrid arbeiten. Lokal für 80 % der täglichen Tasks – Boilerplate, einfache Refactorings, Doku, Test-Generierung, einzelne Bugfixes, Code-Erklärungen. Für die schwierigen 20 % – komplexe Architektur-Reviews, Cross-Repo-Refactorings, knifflige Bugs in Legacy-Code – wechselst du gezielt auf die Cloud-API. Die Konfiguration umzuschalten ist eine Frage von zwei Sekunden, einfach die Umgebungsvariablen unsetzen.
Datenschutz und Compliance: Für Projekte mit sensiblen Kundendaten, Health-Care-Anwendungen oder behördlicher Compliance ist die lokale Variante kein „Nice to have“, sondern oft die einzig zulässige Option. Code-Übertragung an US-Server kann je nach Branche und DSGVO-Auslegung problematisch sein – mit Ollama-Setup verlässt schlicht kein Byte deinen Rechner.
Lohnt sich der Aufwand?
Wenn du eine RTX 4090 schon im Rechner hast: absolut. Die Hardware ist da, das Setup dauert eine halbe Stunde, und du sparst dir bei intensiver Nutzung schnell drei- bis vierstellige API-Beträge pro Monat. Ein Entwickler, der über Nacht autonom Code iterieren lässt, kann mit Cloud-API leicht 200–500 € im Monat verbrennen – lokal zahlst du den Strom, der bei einer 4090 unter Volllast bei rund 0,12 € pro Stunde liegt.
Wenn du noch keine entsprechende Hardware hast, ist die Rechnung schwieriger. Eine neue RTX 4090 ist 2026 nicht mehr ganz billig, eine gebrauchte 3090 mit 24 GB läuft als günstigere Alternative – etwa 700 bis 850 €. Dazu sollten 32 GB Systemspeicher und eine vernünftige NVMe-SSD vorhanden sein, damit das Modell-Loading nicht zur Tortur wird.
Für mich ist der entscheidende Punkt aber gar nicht primär die Kostenersparnis: Es ist die Souveränität. Du bist nicht abhängig von Anthropic-Pricing-Änderungen, von Modell-Deprecations, von Service-Outages oder von Sperren wegen vermeintlicher Policy-Verletzungen. Dein Setup läuft, wenn das Internet ausfällt. Es läuft, wenn Anthropic morgen pleite geht. Es läuft, wenn du in einem Hochsicherheits-Netz arbeitest. Das ist ein Wert für sich, der weit über die Stromrechnung hinausgeht.
Häufig gestellte Fragen zu Claude Code lokal mit Ollama
Geht Claude Code wirklich vollständig lokal ohne Anthropic-API?
Ja, seit Ollama Version 0.14.0 vom Januar 2026 ist das problemlos möglich. Ollama implementiert die Anthropic Messages API nativ, sodass Claude Code statt mit Anthropics Cloud-Servern mit deinem lokalen Ollama-Endpunkt auf localhost:11434 kommuniziert. Es fließt kein Token an Anthropic, kein Code verlässt deinen Rechner. Die einzige Voraussetzung ist eine GPU mit ausreichend VRAM – idealerweise 24 GB für die wirklich nutzbaren Coding-Modelle.
Warum hängt sich Claude Code mit Ollama bei mir auf?
Mit hoher Wahrscheinlichkeit liegt es am Context-Length-Problem. Ollama startet standardmäßig mit nur 4.096 Tokens Context-Window – der System-Prompt von Claude Code allein ist aber bereits 6.000 bis 10.000 Tokens lang. Setze unbedingt OLLAMA_CONTEXT_LENGTH=65536 als Umgebungsvariable BEVOR du Ollama startest. Die offizielle Ollama-Dokumentation empfiehlt seit Mai 2026 mindestens 64K Tokens für Claude Code. Außerdem solltest du Claude Code immer mit dem –model-Flag aufrufen, damit das richtige lokale Modell verwendet wird.
Reicht eine RTX 4090 für lokales Claude Code wirklich aus?
Eine RTX 4090 mit 24 GB VRAM ist 2026 der Sweet Spot für lokales Coding mit KI. Die aktuell besten Modelle für agentisches Coding – GLM-4.7-Flash und Qwen3-Coder 30B-A3B – brauchen im Q4-Format etwa 17 GB VRAM und laufen mit 60–87 Tokens pro Sekunde. Das ist interaktive Geschwindigkeit, du musst nicht warten. Für 80 Prozent der täglichen Coding-Aufgaben reicht das qualitativ vollkommen aus. Mit der nötigen 64K-Kontextlänge bleiben dir noch rund 5–7 GB VRAM für KV-Cache.
Welches Open-Source-Modell ist für Claude Code lokal Stand Mai 2026 am besten?
GLM-4.7-Flash von Z.AI (Januar 2026 veröffentlicht) hat sich als beste Empfehlung für eine 24 GB GPU wie die RTX 4090 etabliert. Das Modell erreicht 59,2 Prozent auf SWE-Bench Verified – deutlich vor Qwen3-30B (22 Prozent) und GPT-OSS-20B (34 Prozent). Auch beim Tool Calling, was für agentische Workflows zentral ist, schneidet GLM-4.7 messbar zuverlässiger ab. Alternative: Qwen3-Coder 30B-A3B, wenn du langen Kontext bei stabiler Performance brauchst. Devstral-Small-2 ist ebenfalls eine starke Wahl für reine Agent-Workflows.
Wie aufwendig ist die Installation des lokalen Setups?
Etwa 30 Minuten netto, davon ist die Hälfte das Herunterladen des Modells. Die Schritte sind: Ollama installieren mit einem Curl-Befehl, KRITISCH: OLLAMA_CONTEXT_LENGTH=65536 setzen vor dem Start, das Modell mit ‚ollama pull glm-4.7-flash‘ herunterladen (~17 GB), Claude Code mit dem offiziellen Anthropic-Installer einrichten, und drei Umgebungsvariablen setzen (ANTHROPIC_BASE_URL, ANTHROPIC_AUTH_TOKEN, ANTHROPIC_API_KEY=leer). Die Konfiguration kannst du in der Shell-Konfigurationsdatei oder in ~/.claude/settings.json hinterlegen, damit sie permanent bleibt.
Wie groß ist der Qualitätsunterschied zu Cloud-Modellen wirklich?
Der Abstand ist 2026 deutlich kleiner geworden, als viele denken. GLM-4.7-Flash erreicht 59,2 Prozent auf SWE-Bench Verified. Zum Vergleich: Claude Sonnet 4.5 liegt bei 77,2 Prozent, Claude Opus 4.5 bei 80,9 Prozent. Für tägliche Aufgaben wie Bugfixes, Refactorings, Boilerplate-Generierung, Test-Erstellung und Doku-Schreiben ist die Qualität praktisch nicht mehr unterscheidbar. Nur bei komplexem Multi-File-Reasoning, subtilen Architektur-Bugs oder sehr langen Kontexten zeigen Anthropics Frontier-Modelle noch klare Vorteile. Mein Vorschlag ist deshalb hybrid: lokal für 80 Prozent der Tasks, Cloud für die schwierigen 20 Prozent.
Funktioniert lokales Claude Code wirklich komplett offline?
Ja, sobald die Erstinstallation abgeschlossen ist. Du brauchst Internet einmalig, um Ollama zu installieren, Claude Code herunterzuladen und das Modell zu pullen. Danach läuft alles lokal: Ollama, das Modell, Claude Code, deine Dateien, deine Git-Operationen. Selbst die Telemetrie schaltest du mit der Variable CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 ab. Im Flugzeug, im ICE durch ein Funkloch, hinter einer restriktiven Firmen-Firewall – der Workflow funktioniert weiter. Für Beratungsmandanten in regulierten Branchen ist genau das oft der entscheidende Faktor.
Wann lohnt sich das lokale Setup wirtschaftlich?
Sobald du regelmäßig agentische Workflows mit Claude Code fährst – also nicht nur einzelne Prompts, sondern autonome Iterationen mit vielen Tool-Calls. Ein Entwickler mit intensiver Nutzung kann über die Anthropic-API leicht 50 bis 200 Euro pro Monat verbrennen, manche Vibe-Coding-Sessions kosten dreistellige Beträge an einem einzigen Abend. Lokal zahlst du den Strom – eine RTX 4090 unter Volllast liegt bei etwa 0,12 Euro pro Stunde. Wenn die Hardware schon vorhanden ist, amortisiert sich das Setup-Investment innerhalb weniger Wochen. Für gelegentliche Nutzung mit zehn Prompts am Tag ist Cloud-API weiterhin günstiger.
Gibt es Alternativen zu Ollama als Backend?
Ja, mehrere. LM Studio ab Version 0.4.1 unterstützt ebenfalls native Anthropic-Kompatibilität auf Port 1234 und bietet eine grafische UI für Modell-Management. vLLM ist die Production-Grade-Alternative mit offizieller Claude-Code-Integration und Performance-Vorteilen, braucht aber mehr Konfigurationswissen und die richtigen Tool-Call-Parser. llama.cpp ist der Speed-Champion auf Apple Silicon, hat aber etwas rougher Streaming-Support. Bei Problemen mit einem Backend lohnt sich der Wechsel oft, da die Bugs sich pro Backend unterscheiden.
Welche Datenschutz- und Compliance-Vorteile bietet das lokale Setup?
Der entscheidende Vorteil: Kein Code, kein Prompt, keine Konversation verlässt deinen Rechner. Für Projekte mit sensiblen Kundendaten, Gesundheitsanwendungen, Banking-Code oder behördlicher Compliance ist das oft kein Komfort, sondern Pflicht. Cloud-basierte KI-Tools übertragen Code an US-Server, was je nach Branche und DSGVO-Auslegung problematisch sein kann. Mit dem lokalen Ollama-Setup hast du volle Souveränität über deine Daten, kannst die DSGVO-Konformität selbst auditieren und musst keine zusätzlichen Auftragsverarbeitungsverträge mit Anthropic abschließen. Auch in Air-Gapped-Netzen oder Hochsicherheitsumgebungen funktioniert das Setup, was bei Cloud-API technisch ausgeschlossen wäre.
Wenn du Hilfe beim Setup deiner lokalen KI-Infrastruktur brauchst oder eine Strategie für dein Team entwickeln willst – meld dich gern bei uns über die Hotline 0800 188 7 100 oder per Mail an 301@seo-manager.info. Wir haben mittlerweile mehrere lokale Setups produktiv im Einsatz und wissen, wo die Stolpersteine liegen.
Letzte Bearbeitung am Donnerstag, 7. Mai 2026 – 0:33 Uhr von Alex, Head of SEO Manager.
