CodingPlan
news

DeepSeek V4, Kimi K2.6, GLM-5.1, MiniMax M2.7: Chinas Open-Weights-Modelle brechen die Preisbarriere

DeepSeek V4, Kimi K2.6, GLM-5.1 und MiniMax M2.7 brechen die Preisbarriere für KI-Coding-Modelle. Ein Überblick über Chinas Open-Weights-Offensive und was sie für Entwickler bedeutet.

CodingPlan Redaktion18. Mai 202614 Min. Lesezeit

DeepSeek V4, Kimi K2.6, GLM-5.1, MiniMax M2.7: Chinas Open-Weights-Modelle brechen die Preisbarriere

Zwischen dem 7. und 24. April 2026 passierte etwas Bemerkenswertes auf dem KI-Markt: Vier chinesische Labs veröffentlichten nacheinander Open-Weights-Coding-Modelle, die auf Benchmarks mit den besten kommerziellen Modellen des Westens mithalten — und das bei Preisen, die bis zu 250-mal niedriger liegen. DeepSeek V4, Kimi K2.6, GLM-5.1 von Z.ai und MiniMax M2.7 bilden zusammen einen neuen Leistungscorridor, der die Art verändern könnte, wie Entwickler über KI-Codierung nachdenken.

Was das bedeutet und welches Modell für wen am besten geeignet ist — darum geht es hier.

Der Preisschock: Ein Bruchteil der Kosten

Das vielleicht Aufregendste zuerst: Die Preisunterschiede sind astronomisch. Während Claude Opus 4.7 bei $75 pro Million Output-Tokens liegt, zahlt man für DeepSeek V4 Flash gerade einmal $0,28. Das ist kein Tippfehler — das Modell kostet ungefähr 0,37 % dessen, was Anthropic für sein Flaggschiff verlangt. Selbst die teureren Varianten wie GLM-5.1 ($1,10) oder MiniMax M2.7 ($1,20) bleiben unter einem Dreißigstel der Kosten von Claude Opus.

Für ein Unternehmen, das monatlich hundert Millionen Tokens durch einen Coding-Agenten jagt, bedeutet das Einsparungen im sechsstelligen Bereich. Und das Beste: Die Leistungseinbußen sind für die meisten realen Workloads überraschend gering.

Benchmark-Ergebnisse: Alle auf einem Niveau

Auf dem SWE-Bench Pro — dem anspruchsvolleren Nachfolger des kontaminierten SWE-Bench Verified — liegen alle vier Modelle zwischen 56,2 % (MiniMax M2.7) und 58,6 % (Kimi K2.6). Claude Opus 4.6, das ehemals dominierende Modell, erreichte 53,4 % auf demselben Benchmark. Die chinesischen Modelle übertreffen also sogar die vorherige Frontier-Generation aus dem Westen.

Kurz gesagt: Alle vier Modelle landen in derselben Liga wie westliche Frontier-Modelle und schlagen sogar Claude Opus 4.6. Die Abstände innerhalb der Gruppe betragen lediglich 2–3 Prozentpunkte.

Allerdings gibt es einen wichtigen Vorbehalt: Wie OpenAI in seiner eigenen Frontier Evals-Analyse dokumentiert hat, sind Benchmark-Ergebnisse durch die Art des verwendeten Scaffolds stark verzerrt. Dasselbe Modell kann je nach Agent-Framework bis zu 17 Aufgaben Unterschied aufweisen. Was du daraus ziehst: Benchmarks liefern eine grobe Orientierung, aber am Ende musst du jedes Modell an deiner eigenen Codebase testen, bevor du dich festlegst.

Die vier Modelle im Detail

DeepSeek V4: Der Preis-Leistungs-Sieger

DeepSeek V4 ist die Weiterentwicklung des Modells, das Ende 2024 die KI-Welt aufschreckte. Die Architektur bleibt faszinierend: Ein 1,6-Billionen-Parameter MoE-Modell (Mixture of Experts), bei dem pro Token nur 49 Milliarden Parameter aktiv sind — und das mit einem Engram conditional memory system, das Fakten nicht in den Gewichten speichert, sondern bei Bedarf nachschlägt. Das Ergebnis: 97 % NIAH-Accuracy, also nahezu keine Halluzinationen bei Faktenabrufen.

Was DeepSeek V4 besonders macht, ist das Kontextfenster von einer Million Tokens — fünfmal so groß wie bei den Konkurrenten. Für Entwickler, die riesige Codebases analysieren oder umfangreiche Dokumentationen einlesen müssen, ist das ein gewaltiger Vorteil. Auf OpenRouter, Together AI und Fireworks ist das Modell breit verfügbar.

Zwei Varianten stehen zur Wahl: Die Flash-Variante ($0,28 Output) für alltägliche Aufgaben und Pro Max ($1,50) für komplexere Probleme. Wer viel Traffic hat, kann mit intelligenterm Routing etwa 70 % des Volumens über Flash schicken und nur die schweren Aufgaben an teurere Modelle delegieren.

Kimi K2.6: Der Allrounder mit Agent Swarm

Wenn es ein Modell gibt, das als Standardwahl für die meisten Entwickler empfohlen wird, dann Kimi K2.6 von Moonshot AI. Warum? Weil es das ausgereifteste Ökosystem hat.

Kimi K2.6 bringt eine einzigartige Architektur mit: Bis zu 300 parallele Sub-Agenten können gleichzeitig arbeiten, die etwa 4.000 koordinierte Schritte ausführen. Statt also eine Aufgabe sequenziell zu bearbeiten, zerlegt der Orchestrator-Agent das Problem in parallelisierbare Teile und verteilt sie. Das Ergebnis: 4,5-fache Beschleunigung gegenüber sequenziellen Pipelines.

Dazu kommt Multimodalität — Kimi K2.6 ist das einzige Modell der vier, das Vision unterstützt. Screenshots analysieren, UIs aus Design-Mockups bauen, Bilder in den Coding-Workflow integrieren — das alles funktioniert out of the box. Mit Cline, Roo Code, Aider und OpenCode liegen fertige Presets vor, und auch Cursor lässt sich mit Kimi K2.6 betreiben.

Moonshot AI hat die API-Preise gegenüber K2.5 um 58 % angehoben, aber mit $0,95 pro Million Output-Tokens bleibt das Modell immer noch 5- bis 18-mal günstiger als Claude Opus 4.7.

GLM-5.1: Der Benchmark-König und NVIDIA-Verweigerer

GLM-5.1 von Z.ai ist vielleicht das politisch interessanteste Modell der Gruppe: Es wurde komplett auf Huawei Ascend 910B-Chips trainiert — 100.000 Stück, kein einziges NVIDIA-Teil. In einer Zeit, in der US-Exportbeschränkungen den Zugang zu NVIDIA-Hardware für chinesische Unternehmen erschweren, beweist Z.ai, dass man Frontier-Leistung auch ohne den Silicon-Valley-Standard erreichen kann.

Auf SWE-Bench Pro (58,4 %) und Terminal-Bench 2 (ca. 57 %) belegt GLM-5.1 den Spitzenplatz unter den Open-Weights-Modellen. Besonders stark ist die Langstrecken-Ausführung: Das Modell kann über acht Stunden autonom an komplexen Engineering-Aufgaben arbeiten, ohne an Qualität zu verlieren — dank des "Slime" asynchronen RL-Frameworks, das bei längerer Laufzeit sogar besser wird statt schlechter.

Die Schwachstelle: 200K Kontextfenster, das kleinste der vier Modelle. Für die meisten Coding-Aufgaben reicht das, aber wer riesige Repositories analysieren will, greift besser zu DeepSeek V4.

MiniMax M2.7: Der Agenten-Spezialist

MiniMax geht einen anderen Weg. Statt rohe Benchmark-Ergebnisse zu maximieren, wurde M2.7 auf "self-evolving agentic training" trainiert — das Modell lernt aus kuratierten Agenten-Trajektorien und wird mit jeder Aufgabe besser. Für Entwickler, die komplexe Agenten-Loops mit vielen Tool-Calls und langen Kontexten bauen, ist das relevant.

Auf Standard-Benchmarks liegt M2.7 etwas hinter den anderen drei (56,2 % auf SWE-Bench Pro), schneidet aber auf internen agenticen Aufgaben deutlich besser ab. Es ist das text-only-Modell der Gruppe — kein Vision, kein Audio. Aber für reine Coding-Agenten ist das oft ausreichend.

Praxistipp: Multi-Tier-Routing statt Mono-Modell

Die wichtigste Erkenntnis aus dieser Modell-Landschaft ist nicht, welches Modell das beste ist. Es ist, dass du nicht mehr nur ein Modell brauchst.

Die empfohlene Strategie für 2026 lautet Multi-Tier-Routing:

  • Tier 1 (~70 % des Traffics): DeepSeek V4 Flash für Standardaufgaben — Autovervollständigung, einfache Refactorings, Tests generieren. Bei $0,28 pro Million Output-Tokens.
  • Tier 2 (~25 % des Traffics): Kimi K2.6 oder GLM-5.1 für komplexere Aufgaben — Multi-File-Refactorings, Bug-Fixes, Architekturentscheidungen. Bei ca. $1 pro Million Output-Tokens.
  • Tier 3 (~5 % des Traffics): Claude Opus 4.7 oder GPT-5.5 für die wirklich harten Probleme — komplexe Migrationen, Performance-Optimierungen, kritische Sicherheitslücken.

Die Ergebnisqualität bleibt bei diesem Setup laut Erfahrungsberichten innerhalb von 10 % einer reinen Claude-Opus-Strategie — während die Kosten um 85–95 % sinken. Bei einem typischen Entwickler-Workflow mit 50 Millionen Tokens pro Monat bedeutet das Ersparnisse von mehreren tausend Dollar.

DSGVO und Self-Hosting: Die Europäer-Perspektive

Für Entwickler in Deutschland und der EU ist ein Aspekt besonders relevant: Alle vier Modelle sind unter einer MIT-Lizenz oder modifizierten MIT-Lizenz verfügbar. Das bedeutet, du kannst die Gewichte herunterladen und selbst hosten — auf deiner eigenen Infrastruktur, unter deiner Kontrolle. Wer DSGVO-konform arbeiten muss, kann die Daten gar nicht erst an externe APIs senden.

Die Selbsthosting-Ökonomie ist interessant: Auf einem einzelnen 8x H100-Knoten kostet das etwa $25–40 pro Stunde. Der Break-even gegenüber gehosteten APIs liegt bei rund 30–80 Millionen Output-Tokens pro Monat. Für Teams ab mittlerer Größe lohnt sich Self-Hosting also durchaus — und Kimi K2.6 hat hier den ausgereiftesten Stack, mit Unterstützung für Ollama Cloud, Cloudflare Workers AI und weitere Plattformen.

Was kommt als Nächstes?

Die chinesische Open-Weights-Offensive ist kein einmaliges Ereignis. DeepSeek V5 wird für Q2/Q3 2026 erwartet, Kimi K3 für Q3, und auch die westlichen Labs reagieren: OpenAI arbeitet an einer GPT-OSS-Linie, Meta an Llama 5. Die Konkurrenz treibt die Preise weiter nach unten und die Qualität weiter nach oben.

Wer sich jetzt auf einen einzigen Anbieter verlässt — sei es Anthropic, OpenAI oder ein einzelnes chinesisches Modell — baut sich ein Single-Point-of-Failure ein. Die Zukunft gehört Routing-Lösungen, die dynamisch das beste Modell für jede Aufgabe auswählen, basierend auf Komplexität, Kosten und verfügbarem Kontext.

Fazit: Die Ära des einen Frontier-Modells ist vorbei

So sieht die Realität aus: Die vier chinesischen Open-Weights-Modelle bilden einen funktional einheitlichen Leistungscorridor, der 25- bis 250-mal günstiger ist als Claude Opus 4.7 oder GPT-5.5. Die Unterschiede zwischen ihnen sind gering — die Wahl hängt vom Use Case ab:

  • DeepSeek V4 für maximale Kosteneffizienz und riesige Kontextfenster
  • Kimi K2.6 als Allrounder mit dem besten Ökosystem
  • GLM-5.1 für Benchmark-Maximalisten und Langstrecken-Aufgaben
  • MiniMax M2.7 für spezialisierte Agenten-Workflows

Wenn du bisher für alles Claude oder GPT genutzt hast, lohnt sich ein Experiment. Installiere Cline oder Aider, konfiguriere Kimi K2.6 oder DeepSeek V4 als Standard und schicke nur die schwersten Aufgaben an Claude. Die Ersparnis wird dich überraschen — und die Qualität wahrscheinlich auch.