Context EngineeringPrompt EngineeringAgentic CodingLLM

Context Engineering: Warum der Prompt nicht das Problem ist

Context Engineering ersetzt Prompt Engineering als kritische KI-Kompetenz. 9.649 Experimente beweisen: Was das Modell weiß entscheidet mehr als was Sie es fragen.

AutorGiuliano FalcoFounder, EconLab AI

Datum14. März 2026

Lesezeit15 min

Von Prompt Engineering zu Context Engineering

Andrej Karpathy: “Context engineering -- the delicate art and science of filling the context window with just the right information for the next step.”

Shopify-CEO Tobi Lütke: “The art of providing all the context for the task to be plausibly solvable by the LLM.”

Prompt Engineering war die richtige Disziplin für 2023. Ein Modell-Aufruf, ein statischer System-Prompt. Agenten haben dieses Modell zerstört.

Harrison Chase (LangChain CEO) beschreibt das Kernproblem: “You don't actually know what the context at step 14 will be, because there's 13 steps before that that could pull arbitrary things in.”

Prompt Engineering: Die Worte der Anweisung. “Wie formuliere ich das?”
Context Engineering: Die gesamte Informationsumgebung. “Was soll das Modell wissen?”

Die Forschung: 9.649 Experimente beweisen es

Damon McMillan veröffentlichte im Februar 2026 die größte empirische Studie zu Context Engineering: 9.649 Experimente über 11 Modelle, 4 Datenformate, Schemata von 10 bis 10.000 Tabellen.

Modellwahl dominiert alles andere. Die Wahl des Modells hat mehr Einfluss als jede Prompt-Optimierung.
Dateibasierter Kontext hilft Frontier-Modellen. Frontier-Modelle arbeiten besser wenn sie Kontext aus Dateien abrufen statt alles auf einmal zu bekommen.
Format ist weniger wichtig als erwartet. YAML, JSON, Markdown -- der Unterschied ist minimal.
Context Rot ist real. LLM-Genauigkeit sinkt je mehr Tokens im Kontext sind -- auch wenn das Window nicht voll ist.
Die Mitte ist ein blinder Fleck. Performance fällt um 30%+ wenn kritische Informationen in der Mitte stehen. Anfang und Ende sind sicher.

Die sieben Schichten des Agent-Kontexts

System Prompt -- Rollen-Definition, Verhaltensregeln (Entwickler kontrolliert)
User Prompt -- Die eigentliche Aufgabe (Nutzer kontrolliert)
Konversationshistorie -- Vorherige Nachrichten (System)
Retrievte Dokumente -- RAG-Ergebnisse, Wissensbasis (Retrieval Pipeline)
Tool-Beschreibungen -- Verfügbare APIs, Funktionssignaturen (Entwickler)
Few-Shot-Beispiele -- Input/Output-Paare (Entwickler/Nutzer)
Memory -- Nutzer-Präferenzen, vergangene Interaktionen (Memory Pipeline)

Context Engineering ist die Disziplin, alle sieben Schichten so zu orchestrieren, dass die richtigen Tokens zur richtigen Zeit in der richtigen Reihenfolge ankommen.

Fünf Context-Engineering-Prinzipien

Relevanz: Nur was gebraucht wird. Nicht die letzten 500 Nachrichten laden.
Suffizienz: Genug aber nicht zu viel. Jedes Extra-Token kompetiert um Attention.
Isolation: Tool-Outputs von einem Schritt sollten nicht den Kontext für unabhängige nächste Schritte verschmutzen.
Oekonomie: Tokens kosten Geld und Qualität. ToolSearch reduziert Token-Verbrauch um ~85%.
Provenienz: Das Modell muss wissen können ob eine Information aus einer vertrauenswürdigen Quelle stammt.

Progressive Disclosure: Das 3-Stufen-Modell

Stufe 1: Metadata Layer (immer geladen) -- CLAUDE.md, Frontmatter, Basis-Konfiguration. ~15K Tokens (7.5%)
Stufe 2: Core Instructions (bei Bedarf) -- Skills, Agent-Definitionen, aktiver Task-Kontext. ~60K Tokens (30%)
Stufe 3: Referenced Files (rekursiv entdeckt) -- Docs, Code, Datenbanken per Grep/Read abgerufen. ~100K+ Tokens (50%+)

Das verhindert Context Rot -- die Performance-Degradierung durch zu viel upfront geladenen Kontext. Databricks zeigte: Die Accuracy sinkt bereits bei ~32K Tokens signifikant -- lange bevor das Million-Token-Limit erreicht ist.

Vier Wege wie Kontext scheitert

Firecrawl und andere Practitioner haben vier distinkte Context-Failure-Modes identifiziert, die jeweils unterschiedliche Lösungen erfordern:

Context Poisoning: Falsche oder veraltete Informationen im Kontext führen zu überzeugend falschen Outputs. Lösung: Datenvalidierung und Freshness-Checks in der Retrieval-Pipeline.
Context Distraction: Zu viel irrelevante Information verwirrt das Modell. Wie ein Student der zu viel Referenzmaterial bekommt und den Fokus verliert. Lösung: Aggressives Filtern, nur task-relevante Dokumente laden.
Context Confusion: Widersprüchliche Informationen aus verschiedenen Quellen. Das Modell muss entscheiden welche Quelle Priorität hat -- ohne klare Hierarchie. Lösung: Explizite Quellenhierarchie definieren.
Context Clash: System-Prompt und User-Prompt widersprechen sich. Oder: Tool-Output widerspricht geladenem Dokument. Lösung: Klare Trust-Boundaries und Conflict-Resolution-Regeln.

In Agentic-Coding-Systemen wie unserem UltraLoop treten alle vier Failure-Modes regelmäßig auf -- besonders Context Distraction (zu viel Codebase-Kontext geladen) und Context Poisoning (veraltete Dokumentation in CLAUDE.md). Progressive Disclosure löst beide: Nur laden was für den aktuellen Task relevant ist, und veraltete Einträge aktiv entfernen.

Context Engineering in der Praxis: Unser System bei EconLab AI

Context Engineering ist keine Theorie für uns -- es ist das Architekturprinzip hinter unserem gesamten Agent-System:

CLAUDE.md: Die "Source of Truth" für jeden Agent -- Projektregeln, Konventionen, Workflow-Definitionen. Evoliert mit jedem Bug und jeder Erkenntnis.
Skills-System: 17 spezialisierte Skills die als Context-Bausteine fungieren. Jeder Skill lädt nur die Informationen die für seine Aufgabe relevant sind -- nicht alles auf einmal.
UltraBrain: Unser Open-Source MCP-Plugin für Cross-Session-Memory. Persistentes Wissen über Sessions hinweg, ohne das Context Window zu belasten.
Agent-Isolation: Sub-Agents erhalten ihren eigenen Context, nicht den des Lead-Agents. Verhindert Context Distraction durch irrelevante übergeordnete Informationen.

Die Formel die wir täglich validieren: Weniger Kontext mit höherer Relevanz schlägt mehr Kontext mit niedrigerer Relevanz -- exponentiell, nicht linear.

Quellen

Karpathy, A. (2025): Context Engineering Definition
Lütke, T. (2025): Context Engineering für Practitioners
McMillan, D. (2026): 9.649 Experiments on Context Engineering
Firecrawl (2026): Context Engineering vs Prompt Engineering
Databricks (2025): Context Window Accuracy Study (~32K Token Threshold)
Chase, H. / LangChain: Agentic Context Management