OpenAI Codex CLI 2026: Der Terminal-Coding-Agent im Praxistest

OpenAI Codex CLI läuft lokal im Terminal, ist Open Source und jetzt Gartner-Leader. Aber lohnt sich der Umstieg von Claude Code?

CodingPlan Redaktion30. Mai 202612 Min. Lesezeit

OpenAI Codex CLI: Der Terminal-Agent, den man ernst nehmen muss

Wenn man im Frühjahr 2026 die Landschaft der KI-Coding-Tools überfliegt, gibt es einen Namen, der in jedem Gespräch auftaucht: Codex CLI von OpenAI. Nicht zu verwechseln mit der gleichnamigen, 2023 abgeschalteten Code-Completion-API – das aktuelle Produkt ist ein komplett neues, in Rust geschriebenes Open-Source-Tool, das als Terminal-first Coding-Agent gestartet wurde und sich inzwischen zu einer ganzen Plattform entwickelt hat.

Was macht Codex CLI besonders? Warum sprechen Analysten von einem der am schnellsten wachsenden Enterprise-Produkte von OpenAI? Und wie schlägt es sich im direkten Vergleich mit dem aktuellen Marktführer Claude Code? Dieser Artikel liefert die Antworten.

Was Codex CLI tatsächlich ist

Codex CLI ist ein agentischer Coding-Agent, der direkt im Terminal läuft. Er liest eure Codebasis, schlägt Multi-File-Änderungen vor, führt Befehle aus und arbeitet dabei in einer gesandboxten Umgebung – alles ohne GUI, ohne IDE-Extension, pur Terminal.

Die Zahlen sprechen für sich (Stand April 2026):

~74.500 GitHub Stars und über 400 Contributors
14,5 Millionen npm-Downloads pro Monat
3–4 Millionen aktive Nutzer wöchentlich
700+ Releases seit dem Launch im April 2025

Im Mai 2026 kam dann die offizielle Bestätigung: Gartner kürte OpenAI im Magic Quadrant for Enterprise AI Coding Agents zum Leader – alongside Unternehmen wie Cisco, Datadog, Dell und NVIDIA als Referenzkunden.

Unter der Haube: Rust, Sandbox und GPT 5.3

Technisch ist Codex CLI bemerkenswert. Nachdem das Tool zunächst in TypeScript entwickelt wurde, erfolgte Ende 2025 eine komplette Neuimplementierung in Rust (95,6% des Codebase). Das zahlt sich aus:

~80 MB Speicherverbrauch im Betrieb (zum Vergleich: Claude Code kann mehrere Gigabyte erreichen)
240+ Tokens/Sekunde in Benchmark-Tests
Kernel-level Sandboxing: Auf macOS via Seatbelt, auf Linux via Bubblewrap, auf Windows nativ

Das Sicherheitsmodell ist durchdacht. Im Sandbox-Modus wird Netzwerkzugriff standardmäßig blockiert, Dateisystemoperationen sind auf das aktuelle Verzeichnis beschränkt. Das ist ein fundamentaler Unterschied zu Claude Code, das auf Application-Layer-Hooks setzt.

Angetrieben wird Codex CLI von GPT 5.3 Codex, dem aktuell fähigsten agentischen Coding-Modell von OpenAI. Es führt die SWE Bench Pro und Terminal Bench 2.0 an und ist 25% schneller als sein Vorgänger. Für API-Nutzer stehen zudem o4-mini (schnell und günstig) und o3 (komplexe Reasoning-Aufgaben) zur Verfügung.

Installation und Setup

Der Einstieg ist erfreulich einfach. Voraussetzungen: Node.js 22+ und entweder ein OpenAI API-Key oder ein ChatGPT-Abo.


# Installation
npm install -g @openai/codex

# Authentifizierung (ChatGPT Plus/Pro – kein API-Key nötig)
codex auth

# Alternativ: API-Key setzen
export OPENAI_API_KEY="sk-..."

# Erster Testlauf
codex "Analysiere dieses Projekt und liste alle TODOs auf"

Die Authentifizierung über codex auth öffnet einen Browser-Login bei OpenAI – für ChatGPT-Abonnenten entstehen keine zusätzlichen Kosten. Das ist ein cleverer Schachzug: Wer ohnehin 20€/Monat für ChatGPT Pro zahlt, bekommt den Coding-Agenten gratis dazu.

Wichtig für Windows-Nutzer: Codex CLI läuft nativ in WSL2. Node.js muss innerhalb von WSL2 installiert sein, nicht auf dem Windows-Host.

Die drei Modi: Vom sicheren Vorschlag bis zur Vollautomatik

Codex CLI bietet drei Betriebsmodi, die unterschiedliche Autonomiegrade abdecken:

Suggest (Standard)

Jede Aktion – ob Dateibearbeitung oder Shell-Befehl – muss explizit bestätigt werden. Änderungen werden als Unified Diff im Terminal angezeigt. Ideal zum Lernen und für kritische Codebases.

Auto-Edit

Dateiänderungen werden automatisch angewendet, Shell-Befehle erfordern weiterhin Bestätigung. Der Sweet Spot für die tägliche Arbeit in versionierten Projekten.

Full-Auto

Vollständige Autonomie innerhalb der Sandbox. Dateien werden editiert, Befehle ausgeführt – alles automatisch. Der Modus für CI/CD-Integrationen und Batch-Aufgaben.


# Refactoring im Full-Auto-Modus
codex --approval-mode full-auto "Migriere alle Testdateien von Jest zu Vitest"

Mein Rat: Full-Auto nur auf einem sauberen Git-Branch nutzen. Vorher committen, nachher git diff und git status prüfen. Die Kernel-Sandbox schützt vor Katastrophen, aber sie ersetzt kein Code-Review.

/goal: Langfristige Coding-Aufgaben

Mit Version 0.128.0 (Ende April 2026) führte OpenAI das /goal-Feature ein – die Antwort auf Claude Codes Agent Teams und ähnliche Konzepte bei der Konkurrenz.


/goal Migriere die Authentifizierung von JWT zu session-basiert und validiere jeden Schritt
/goal              # Status anzeigen
/goal pause        # Ziel pausieren
/goal resume       # Fortsetzen
/goal clear        # Ziel entfernen

Das Prinzip: Codex arbeitet eigenständig weiter, wenn ein Turn endet, das Ziel aber noch nicht erreicht ist. Bei Token-Budget-Erschöpfung gibt es einen Status-Report mit Fortschrittszusammenfassung.

Best Practices für Goals:

Verifizierbar formulieren: "Migriere Paket X von v2 auf v3 API und validiere jeden Schritt"
Nicht schwammig: "Verbessere die Codebase" (kein klarer Erfüllungsanker)
Immer den Output reviewen – mehr Autonomie bedeutet mehr zu kontrollierender Code

Konfiguration: Global, Projekt und Prompt

Codex CLI bietet eine dreistufige Konfigurationshierarchie:

Global (~/.codex/config.yaml):


model: o4-mini
mode: suggest
instructions: |
  Verwende immer ES Module Syntax.
  Bevorzuge async/await.
  JSDoc-Kommentare auf allen exportierten Funktionen.

Projektebene (codex.md im Repo-Root):


# codex.md
## Projekt-Konventionen
- TypeScript strict mode für alle neuen Dateien
- Funktionale Komponenten mit Hooks
- Vitest für Unit Tests
- API-Aufrufe nur über src/api/client.ts

Prompt-Ebene: Inline-Anweisungen im aktuellen Prompt haben höchste Priorität.

Sicherheitshinweis: Beim Klonen von Third-Party-Repos immer zuerst cat codex.md ausführen. Die Datei könnte adversariale Anweisungen enthalten, die bei jedem Codex-Aufruf injiziert werden.

MCP-Integration

Codex CLI unterstützt nativ das Model Context Protocol (MCP). Die Konfiguration erfolgt in TOML – entweder global in ~/.codex/config.toml oder projektbezogen in .codex/config.toml:


[mcp_servers.filesystem]
command = "npx"
args = ["-y", "@modelcontextprotocol/server-filesystem", "/pfad/zum/verzeichnis"]

[mcp_servers.context7]
command = "npx"
args = ["-y", "@upstash/context7-mcp"]

Oder via CLI:


codex mcp add filesystem npx -y @modelcontextprotocol/server-filesystem /pfad/zum/dir

Wer von Claude Code migriert: Die command- und args-Parameter sind identisch, nur das Format ändert sich von JSON zu TOML.

Codex CLI vs. Claude Code: Der ehrliche Vergleich

Der Elefant im Raum. Claude Code gilt laut Pragmatic Engineer Survey als Marktführer unter den Coding-Agenten. Wie schlägt sich Codex CLI?

Die Benchmarks:

Terminal-Bench 2.0: Codex CLI 77,3% vs. Claude Code 65,4%
Blind-Tests Codequalität: Claude Code gewinnt 67% der Vergleiche, Codex CLI 25%

Die praktische Erfahrung:

| Szenario | Empfehlung | Warum |

|----------|-----------|-------|

| Batch-Refactoring | Codex CLI | Geringere Token-Kosten, schneller |

| Komplexe Architekturentscheidungen | Claude Code | Bessere Codequalität bei großen Tasks |

| CI/CD-Integration | Codex CLI | 80 MB RAM, Kernel-Sandbox, Rust |

| Präzises Debugging | Claude Code | Stärkeres Multi-Step-Reasoning |

| Vendor-Lock-in-Avoidance | Codex CLI | Apache-2.0, forkbar |

| Frontend/UI-Entwicklung | Claude Code | Tieferes React/Vue-Verständnis |

Diepricing-Parität ist kein Zufall: Beide kosten 20$/Monat (Pro) bzw. 30$/Seat/Monat (Team). OpenAI positioniert Codex CLI als direkten Wettbewerber, nicht als Premium- oder Budget-Alternative.

Mein Fazit zum Vergleich: Für typische Tagesaufgaben – Modul refactoren, Features über drei Dateien hinweg implementieren, Tests schreiben – sind beide Tools austauschbar. Die Entscheidung fällt zugunsten des Tool-Ökosystems, in dem euer Team bereits arbeitet. Wer stark im OpenAI-Stack ist, wählt Codex CLI. Wer Anthropic nutzt, bleibt bei Claude Code.

Die Plattform jenseits der CLI

Codex CLI ist nur ein Zugangsweg zur Codex-Plattform. OpenAI bietet drei weitere:

Codex App (Desktop): Nativ für macOS (seit Februar 2026) und Windows (seit März 2026). Bietet Computer Use (Hintergrundsteuerung anderer Apps), einen In-App-Browser für UI-Tests, Bildgenerierung und über 90 Plugins (Atlassian Rovo, GitLab Issues, CircleCI, CodeRabbit etc.).

Codex Cloud: Asynchrone Task-Ausführung in isolierten Cloud-Sandboxes innerhalb von ChatGPT. Tasks laufen parallel, ideal für Refactorings, Test-Erweiterungen und PR-Drafts im Hintergrund.

Skills und Plugins: Über SKILL.md-Dateien in ~/.agents/skills/ lassen sich wiederverwendbare Anweisungen definieren, die Codex automatisch bei passenden Tasks lädt.

DSGVO und Datenschutz

Für europäische Teams relevant: Wer den API-Key-Modus nutzt, profitiert von OpenAIs API-Datenrichtlinie – API-Inputs werden nicht für Modelltraining verwendet (Stand April 2026). Im ChatGPT-Auth-Modus gelten die allgemeinen ChatGPT-Nutzungsbedingungen.

OpenAI bietet inzwischen HIPAA-konforme Nutzung an und hat Codex auf Amazon Bedrock verfügbar gemacht – ein wichtiges Signal für Unternehmen, die Daten in der EU behalten müssen.

Praxistipp: Der 30-Sekunden-Start


# 1. Installieren
npm install -g @openai/codex

# 2. Authentifizieren
codex auth

# 3. Loslegen
codex "Check dieses Projekt auf TODOs und generiere eine Issue-Liste"

Für die erste Stunde empfehle ich den Suggest-Modus (Standard). So lernt man, wie Codex denkt und welche Art von Änderungen es vorschlägt. Sobald man ein Gefühl dafür hat, kann man auf auto-edit wechseln.

Für wen lohnt sich Codex CLI?

Jetzt ausprobieren, wenn:

Ihr ChatGPT Plus/Pro-Abonnenten seid (null Zusatzkosten)
Ihr Batch-Refactorings, Skript-Generierung oder CI/CD-Integration braucht
Ihr ein Open-Source-, forkbares Tool bevorzugt
Ihr terminal-basiert arbeitet

Noch warten, wenn:

Euer Hauptbedarf komplexe Architekturentscheidungen sind → Claude Code
Ihr vollständig lokale, air-gapped KI braucht → Aider + lokales LLM
Ihr primär in der IDE arbeitet → IDE-integrierte Tools passen besser

Fazit

Codex CLI ist ein bemerkenswert reifes Produkt für sein Alter. Die Rust-Architektur, das durchdachte Sicherheitsmodell mit Kernel-Sandboxing, die flexible Konfiguration und die nahtlose Integration in den OpenAI-Stack machen es zu einem ernsthaften Wettbewerber für Claude Code. Die Gartner-Auszeichnung als Leader untermauert das.

Der wichtigste Faktor bleibt jedoch das jeweilige Team-Ökosystem. Codex CLI brilliert dort, wo ohnehin OpenAI-Modelle im Einsatz sind. Als standalone Entscheidungsfaktor reicht die Codequalität bei großen Tasks noch nicht ganz an Claude Code heran – für den überwiegenden Teil der täglichen Entwicklerarbeit ist das aber kaum relevant.

Die Entwicklungsgeschwindigkeit von OpenAI (700+ Releases in 13 Monaten) spricht eine klare Sprache: Codex CLI wird besser, schneller. Wer jetzt einsteigt, ist auf dem richtigen Weg.

Dieser Artikel basiert auf Informationen von OpenAI, Gartner, unabhängigen Reviews und der offiziellen Dokumentation. Stand: Mai 2026.

Zurück zum Blog