CodingPlan

Context Engineering 2026: Die wichtigste KI-Coding-Fähigkeit, die niemand dir erklärt hat

Prompt Engineering war 2023. 2026 gewinnt, wer den Kontext seiner KI-Coding-Tools strukturiert. Ein Praxisguide mit Beispielen für Claude Code, Cursor und Copilot.

CodingPlan Redaktion06. Juni 202613 Min. Lesezeit

Context Engineering 2026: Die wichtigste KI-Coding-Fähigkeit, die niemand dir erklärt hat

Du kennst das vielleicht: Du öffnest Claude Code, beschreibst dein Feature, und der Agent generiert Code, der funktioniert — aber irgendwie nicht zu deinem Projekt passt. Falsche Bibliotheken, inkonsistente Naming-Konventionen, eine Datenbank-Abfrage direkt im Route-Handler, die deine Team-Standards verbieten. Du korrigierst, erklärst, iterierst. Eine Stunde später hast du fünfmal das Gleiche erklärt und fragst dich, warum die KI nicht einfach weiß, wie ihr das macht.

Die Antwort heißt Context Engineering. Und sie ist im Jahr 2026 das, woran mittlerweile entschieden wird, ob ein Team mit KI-Coding-Tools produktiv wird oder an ihnen verzweifelt.

Vom Prompt zum Kontext: Warum 2023-Denken nicht mehr reicht

Prompt Engineering war die Fähigkeit der Stunde, als wir alle noch einzelne Prompts in ein Chat-Fenster getippt haben: "Schreibe mir eine Python-Funktion, die…". Das war 2023. Inzwischen arbeiten wir mit Agenten, die über Stunden hinweg Repositories durchsuchen, Dutzende Dateien verändern, Tools aufrufen und dabei hoffentlich das Richtige tun.

Anthropic hat diesen Wandel in seinem Engineering-Blog im Herbst 2025 klar benannt: "Building with language models is becoming less about finding the right words and phrases for your prompts, and more about answering the broader question of: what configuration of context is most likely to generate our model's desired behavior?"

Anders gesagt: Es geht nicht mehr darum, den perfekten Prompt zu schreiben. Es geht darum, das Informationsumfeld zu gestalten, in dem die KI arbeitet. Was sieht das Modell? In welcher Reihenfolge? Welche Tools hat es? Welche Beispiele sind relevant?

Andrej Karpathy — OpenAI-Mitgründer, ehemaliger AI-Chef bei Tesla — hat in seinem Vortrag "From Vibe Coding to Agentic Engineering" im April 2026 genau das beschrieben: Wer 2026 noch meint, KI-Coding sei ein besseres Autocomplete, hat die Entwicklung verpasst. Agenten sind heute autonome Systeme, und ihre Qualität wird maßgeblich durch das bestimmt, was wir ihnen an Kontext mitgeben.

Was ist Context Engineering eigentlich?

Eine treffende Definition kommt von Birgitta Böckeler von Thoughtworks: "Context engineering is curating what the model sees so that you get a better result."

Konkret umfasst das:

  • System-Prompts — die grundsätzlichen Verhaltensregeln, die das Modell zu Beginn einer Sitzung liest
  • Persistente KontextdateienCLAUDE.md, AGENTS.md, .cursor/rules/*.mdc, copilot-instructions.md
  • Tools und MCP-Server — die Werkzeuge, die dem Agenten zur Verfügung stehen
  • Beispiele und Few-Shots — kanonische Muster, an denen sich das Modell orientiert
  • Just-in-Time-Retrieval — dynamisches Nachladen von Dateien, Doku oder Codeausschnitten während der Arbeit
  • Nachrichten-Historie — was aus vergangenen Turns im Fenster bleibt und was komprimiert wird

Wer Context Engineering betreibt, gestaltet all diese Kanäle systematisch. Und: Er dokumentiert diese Entscheidungen so, dass sie im Repo leben und von der ganzen Team genutzt werden können.

Das "Context Rot"-Problem

Warum ist das so wichtig? Weil Modelle nicht linear besser werden, je mehr Tokens man ihnen gibt. Sie werden schlechter.

Anthropic nennt das Phänomen Context Rot: Je länger der Kontext, desto unzuverlässiger erinnert sich das Modell an die wirklich relevanten Stellen. Das hat architektonische Gründe — Transformer berechnen n² paarweise Beziehungen zwischen Tokens, und die Aufmerksamkeit wird mit wachsender Fenstergröße "ausgedünnt". Hinzu kommt, dass Modelle in der Regel mit kürzeren Sequenzen trainiert wurden und bei langen Kontexten interpolieren müssen.

Praktisch heißt das: Wenn du Claude eine 200.000-Token-Datei reinwirfst und dann oben drüber deine eigentliche Frage stellst, sinkt die Trefferquote spürbar. Ein 800-Token-Prompt mit den fünf wirklich wichtigen Sätzen ist oft besser als eine 80.000-Token-Dokumentation im Kontext.

Daraus leitet sich die zentrale Regel ab:

Good context engineering means finding the smallest possible set of high-signal tokens that maximize the likelihood of the desired outcome.

Das ist das Gegenteil von "alles reinpacken und hoffen". Es ist Kuratieren, Weglassen, Priorisieren.

Die drei Säulen guten Context Engineering

Anthropic unterscheidet drei Bereiche, die du beherrschen musst. Ich erweitere sie um eine vierte, die im Agenten-Kontext besonders wichtig ist.

1. System-Prompts: Die richtige Flughöhe finden

Der häufigste Fehler sind System-Prompts, die entweder zu starr oder zu vage sind. Zu starr: Wenn du jedem Tool-Aufruf If-Else-Logik aufzwingst, wird der Prompt bei der ersten Edge-Case spröde. Zu vage: "Schreibe sauberen Code" ist keine Anweisung, es ist ein frommer Wunsch.

Die goldene Mitte nennt Anthropic die "right altitude" — konkret genug, um Verhalten zu steuern, flexibel genug, um Heuristiken zu liefern.

Strukturiere deinen System-Prompt mit klaren Sektionen. Nutze XML-Tags oder Markdown-Header:


<background_information>
Du arbeitest an einer B2B-SaaS-Anwendung mit Vue 3 und Laravel 11.
Etwa 8.000 zahlende Kunden, 24/7-Verfügbarkeit ist Pflicht.
</background_information>

<instructions>
- Verwende ausschließlich Composition API, nie Options API.
- Cache-Keys beginnen immer mit dem Tenant-Präfix: cache::tenant_123:...
- Neue Blade-Komponenten gehören nach resources/views/components/forms
</instructions>

Ein nützlicher Test: Wenn ein neues Teammitglied ohne weitere Erklärung den Prompt liest und ungefähr weiß, was zu tun ist, ist die Flughöhe richtig.

2. Tools: Auf Effizienz designen

Ein Agent ist nur so gut wie seine Tools. Und ein häufiger Fehler ist es, zu viele oder unklare Tools anzubieten.

Der Grundlagetest lautet: Wenn ein menschlicher Entwickler nicht eindeutig sagen kann, welches Tool in einer Situation das richtige ist, wird es ein KI-Agent auch nicht können. Überlappende Funktionalität führt zu falschen Entscheidungen, falsche Parameter zu kaputten Calls.

Gute Tools sind:

  • Selbstständig — sie kommen ohne weiteres Nachfragen klar
  • Fehlertolerant — sie geben nützliche Fehlermeldungen zurück, keine kryptischen Stacktraces
  • Token-effizient — sie liefern nur die Informationen, die wirklich gebraucht werden
  • Minimal — weniger, aber dafür klar abgegrenzte Tools sind besser als ein Schweizer Taschenmesser

Wenn du MCP-Server (Model Context Protocol) an Claude Code oder Cursor anschließt, gilt dasselbe: Lieber drei gut durchdakte Server als zehn halbgare.

3. Beispiele statt Erklärungen

Für ein LLM sind Beispiele "die Bilder, die mehr als tausend Worte sagen". Wenn du zeigst, wie ein API-Endpoint aussehen soll, in zwei kanonischen Beispielen, ist das oft wirkungsvoller als drei Absatz Erklärungen.

Ein Anti-Pattern: Listen mit Edge Cases vollstopfen. Stattdessen lieber 2–3 diverse, repräsentative Beispiele, die das gewünschte Muster zeigen.

4. Persistenter Repository-Kontext

Hier kommen die Dateien ins Spiel, die 2026 jedes seriöse KI-Projekt haben sollte. Im Kern geht es darum: Projektkenntnis, die sonst in den Köpfen der Senior-Entwickler lebt, als strukturierte Markdown-Files ins Repository zu schreiben.

Die drei Dateien, die dein Repo 2026 braucht

Drei Formate haben sich als De-facto-Standards etabliert. Sie sind nicht konkurrierend — sie ergänzen sich.

| Datei | Gelesen von | Zweck |

|-------|-------------|------|

| AGENTS.md | OpenAI Codex, Claude Code, Gemini CLI, weitere | Universeller Projektstandard |

| CLAUDE.md | Claude Code, Claude Agent SDK | Claude-spezifische Konfiguration |

| .cursor/rules/*.mdc | Cursor | Pfad-abhängige Regeln |

AGENTS.md — Die Single Source of Truth

AGENTS.md ist der universellste Standard, weil ihn OpenAI Codex, Claude Code und Gemini CLI gleichermaßen lesen. Wenn dein Team mehrere KI-Tools einsetzt — was laut Developer Experience Report 2026 die Regel ist — dann startest du hier.

Halte die Datei unter 500 Zeilen, dicht und scannbar. Folgende Sektionen haben sich bewährt:


# AGENTS.md

## Project
Lagerverwaltung API — REST-Service für Warehouse-Management.
Python 3.12, FastAPI 0.111, PostgreSQL 16, Redis 7.
Produktion auf AWS ECS, ca. 15k Requests/Tag. Internes Tool.

## Tech Stack
- Runtime: Python 3.12
- Web: FastAPI + uvicorn
- ORM: SQLAlchemy 2.x (async) mit Alembic
- DB: PostgreSQL 16 (niemals SQLite, auch nicht in Tests)
- Cache: Redis 7 via redis-py async
- Auth: JWT mit python-jose, 1h Token-Lebensdauer
- Validation: Pydantic v2 only

## Commands

Install

uv sync --all-extras

Dev-Server

uvicorn app.main:app --reload --port 8000

Tests (immer die komplette Suite, nie Einzeldatei)

pytest -x --tb=short

Lint (muss vor Commit grün sein)

ruff check . --fix

ruff format .



## Code Style
- Formatter: ruff (line length 100)
- Niemals nacktes `except:` — immer spezifische Exceptions
- Alle Endpoints brauchen `response_model` und `status_code`
- `async def` für alle Handler und Service-Methoden
- Type-Hints Pflicht
- Niemals aus `app.main` importieren — erzeugt Circular Imports

## Architecture
app/
  api/        # Nur Route-Handler, keine Business-Logik
  services/   # Business-Logik, eine Datei pro Domain
  models/     # SQLAlchemy-ORM
  schemas/    # Pydantic Request/Response
  core/       # Config, DB-Session, Auth-Utilities

Datenfluss: request → api/handler → service/methode → models/query → schema.
Niemals direkt aus api/ auf die Datenbank zugreifen.

Siehst du, was hier passiert? Die KI weiß nach Lesen dieser 80 Zeilen mehr über dein Projekt als jeder neue Junior-Entwickler nach einer Woche. Und sie wendet dieses Wissen konsistent an.

CLAUDE.md — Claude-spezifische Konfiguration

CLAUDE.md wird von Claude Code und dem Claude Agent SDK gelesen. Sie ist der Ort für Claude-spezifische Heuristiken: Wann soll Claude Extended Thinking verwenden? Welche Tools darf es ohne Nachfragen ausführen? Was sind Memory-Hints aus vergangenen Sessions?


# CLAUDE.md

## Thinking
Extended Thinking (budget_tokens >= 8000) verwenden für:
- Neue Service-Methoden, die mehrere Tabellen berühren
- Debugging von Async-Race-Conditions
- Review von Alembic-Migrationen vor dem Apply

KEIN Extended Thinking für:
- Triviale CRUD-Endpoints
- Type-Fehler beheben
- Docstrings schreiben

## Tools
- Du DARFST `pytest`, `ruff`, `alembic upgrade`, `uvicorn` ohne Nachfrage ausführen.
- Du MUSST nachfragen vor `alembic downgrade` und allen destruktiven DB-Befehlen.
- Niemals `git push` direkt ausführen.

## Do / Don't
DO:
- Pro neuem Endpoint einen Test in `app/tests/api/` anlegen
- Service-Methoden unter 50 Zeilen halten — bei mehr splitten
- `logger = logging.getLogger(__name__)` am Modulanfang

DON'T:
- Keine neuen Dependencies ohne Review — pyproject.toml-Änderungen sind Team-Decision
- Kein `print()` — immer Logger
- Keine hartcodierten URLs — immer `app/core/config.py`

.cursor/rules/*.mdc — Pfad-abhängige Regeln in Cursor

Cursor nutzt .cursor/rules/*.mdc-Dateien, die über Frontmatter-Attribute bestimmten Pfaden zugeordnet werden. Der Vorteil: Du kannst Frontend-Regeln nur dann laden, wenn wirklich eine .vue-Datei bearbeitet wird.


---
description: Vue 3 Komponenten-Konventionen
globs: ["resources/js/components/**/*.vue"]
alwaysApply: false
---

# Vue-Komponenten

- Immer `<script setup lang="ts">`, nie Options API
- Props mit `defineProps<{ ... }>()` typisieren
- Composables gehören nach `resources/js/composables/`
- Keine globale Event-Bus-Nutzung — Pinia-Store stattessen

Wichtig: Wenn du noch eine alte .cursorrules-Datei im Repo hast, migriere sie zu .mdc. Das alte Format gilt seit Cursor 0.45 als veraltet.

Just-in-Time-Context: Der Agent lädt, was er braucht

Persistente Dateien sind eine Hälfte. Die andere ist dynamischer Kontext — und das ist die Stelle, an der Agenten 2026 wirklich mächtig werden.

Stell dir vor, Claude Code arbeitet an einer Bugfix-Aufgabe. Anstatt gleich das gesamte Repo in den Kontext zu laden, passiert Folgendes:

  1. Claude liest AGENTS.md und CLAUDE.md (klein, immer im Fenster)
  2. Es nutzt glob, um relevante Dateien zu finden
  3. Es nutzt grep, um betroffene Codestellen zu identifizieren
  4. Es liest gezielt nur die Dateien, die es wirklich braucht
  5. Es nutzt Bash-Befehle wie head oder tail, um große Dateien stückweise zu analysieren

Das ist, was Anthropic als Just-in-Time-Retrieval bezeichnet — und es ist dem menschlichen Vorgehen ähnlich: Du merkst dir nicht das gesamte Repo, sondern wo was zu finden ist. Claude Code macht das Gleiche.

Praktische Empfehlung: Strukturiere dein Repo so, dass sich die KI gut orientieren kann. Sprechende Dateinamen, klare Ordner-Hierarchien, konsistente Naming-Konventionen — all das sind Metadaten-Signale, an denen sich Agenten orientieren. Ein Ordner namens src/utils/legacy/ kommuniziert etwas anderes als src/utils/.

Die häufigsten Anti-Patterns

Aus der Praxis fallen immer wieder dieselben Fehler auf:

1. "Vague conditional rules" — Sätze wie "when required, add error handling". Die KI wird nie wissen, wann required ist. Schreib stattdessen: "Alle externen API-Calls werden in try/except gewrappt. Fehler werden mit dem Modul-Logger geloggt."

2. Monolithische 3.000-Zeilen-Kontextdateien — Besser: Layering. Eine CLAUDE.md im Root für das Gesamtprojekt, eine in /backend/ für Backend-Spezifika, eine in /frontend/ für Frontend-Themen. Claude Code und Cursor scannen die Hierarchie automatisch.

3. Kontext-Drift — Wenn die Realität im Code eine andere ist als in der CLAUDE.md, folgen falsche Empfehlungen. Pack Context-Dateien ins Repo, koppel Änderungen an PRs ("Does this change affect documented conventions?"), und führe regelmäßige Reviews durch — mindestens quartalsweise.

4. Fehlende Validierungs-Kommandos — Die KI kann nicht prüfen, ob sie etwas richtig gemacht hat, wenn sie nicht weiß, wie dein Test-Kommando heißt. Immer eine ## Commands-Sektion mit exakten Build/Lint/Test-Invoications.

5. Zu viele Tools, zu wenig Struktur — Wenn du sieben MCP-Server an einen Agenten anschließt, ohne ihre Verantwortlichkeiten klar zu trennen, sinkt die Quote korrekter Tool-Auswahl drastisch.

ContextOps: Wenn Context Engineering erwachsen wird

Für Teams ist der nächste Schritt ContextOps — analog zu DevOps. ContextOps bedeutet: Kontextdateien werden wie Code behandelt. Sie haben Owner, Reviews, Versionsgeschichte. Sie werden in CI geprüft (gibt es noch alle referenzierten Kommandos?), an Onboarding-Docs gekoppelt und beim Team-Wechsel von Senior-Entwicklern nicht stillschweigend ignoriert.

Ein paar konkrete Schritte dorthin:

  • Committe alle Kontextdateien (CLAUDE.md, AGENTS.md, .cursor/rules/) ins Git-Repo
  • Verknüpfe PR-Templates mit einer Checkbox: "Betrifft diese Änderung dokumentierte Konventionen?"
  • Ernenne Context-Owner pro Domain (z. B. Backend-Team owns /backend/CLAUDE.md)
  • Halte Dateien synchron, wenn du mehrere Tools nutzt — eine alle 2 Wochen durchlaufende CI-Prüfung kann darauf achten, dass CLAUDE.md und copilot-instructions.md nicht auseinanderdriften
  • Aktualisiere inkrementell statt in großen Rewrites — die ACE-Studie von Stanford/SambaNova hat gezeigt, dass inkrementelle Updates die Latenz um bis zu 86% reduzieren gegenüber kompletten Regenerationen

Die harten Zahlen: Lohnt sich der Aufwand?

Einige Statistiken aus dem Packmind Context Engineering Report 2026 sprechen Bände:

  • 91 % aller Entwicklungsorganisationen nutzen mindestens ein KI-Coding-Tool.
  • 82 % der Entwickler setzen KI-Tools täglich oder wöchentlich ein, 59 % parallel drei oder mehr.
  • 41 % allen produzierten Codes ist heute KI-generiert oder KI-assistiert.
  • Code-Duplikation ist seit Einführung von KI-Tools um das Vierfache gestiegen.
  • Teams mit 6+ KI-Tools haben eineShipping-Confidence von nur 28 %.
  • 48 % des KI-generierten Codes enthalten potenzielle Sicherheitslücken.
  • Es gibt einen 60 %-Rückgang an refactortem Code — zugunsten von Feature-Velocity.

Und die wichtigste Zahl: Eine Stanford-Studie von 2025 hat gezeigt, dass Agenten ohne Kontextdateien eine Erfolgswahrscheinlichkeit von rund 30 % hatten. Mit sorgfältig gepflegten Kontextdateien stieg die Erfolgsquote auf 90 %.

Die dreifache Verbesserung ist kein theoretischer Wert — sie ist reproduzierbar, wenn du die in diesem Artikel beschriebenen Prinzipien anwendest.

Wie du anfängst — eine 30-Tage-Roadmap

Du musst nicht in einem Big-Bang dein ganzes Repo umstrukturieren. Hier ist ein pragmatischer Weg:

Woche 1: Audit. Welche KI-Tools nutzt du? Welche davon haben Konfigurationsdateien? Gibt es bereits eine .cursorrules oder copilot-instructions.md? Was davon ist aktuell?

Woche 2: Erste Datei. Schreibe AGENTS.md mit den Sektionen Project, Tech Stack, Commands, Code Style. Halte dich unter 100 Zeilen. Lies sie selbst kritisch: Würde ein neues Teammitglied das verstehen?

Woche 3: Tool-Spezifika. Füge Claude- oder Cursor-spezifische Dateien hinzu. Definiere, wann Extended Thinking genutzt wird, welche Tools ohne Nachfrage laufen dürfen, welche absolut nicht.

Woche 4: Test und Verfeinerung. Lass zwei Kollegen jeweils dasselbe Feature mit und ohne Kontext-Files bauen. Vergleiche. Optimiere auf Basis echter Schwachstellen, nicht theoretischer.

Monat 2: Skalierung. Kontextdateien für Sub-Ordner (/frontend/CLAUDE.md), CI-Checks, PR-Templates.

Fazit: Der Unterschied zwischen Werkzeug und Handwerk

Prompt Engineering war die Fähigkeit, das richtige Werkzeug zu bedienen. Context Engineering ist die Fähigkeit, die Werkstatt einzurichten, in der das Werkzeug arbeitet.

Beides ist nützlich, aber Context Engineering ist das, was KI-Coding vom Einzelkämpfer-Setup ins industrielle Maßstab bringt. Es ist der Grund, warum manche Teams mit KI-Coding ihre Geschwindigkeit verdreifachen, während andere nach drei Monaten Frustration wieder zurück zum manuellen Programmieren wechseln.

Das Schöne daran: Die Werkzeuge sind kostenlos. Die Standards (AGENTS.md, CLAUDE.md, .cursor/rules/) sind offen und dokumentiert. Der einzige Aufwand ist das Schreiben und Pflegen dieser Dateien — und das ist exakt die Arbeit, die du sonst in tausend kleinen "Äh, bei uns machen wir das so"-Erklärungen verrichten müsstest.

Mach es dir zur Gewohnheit. Pack die wichtigsten Konventionen deines aktuellen Projekts heute Abend in eine CLAUDE.md. Lass den Agenten morgen mit ihr arbeiten. Beobachte den Unterschied. Meistens ist es nicht die KI, die besser werden muss — es ist der Kontext, den wir ihr geben.