Agentic CodingAgent HarnessKI-GovernanceEnterprise AI

Agent Harness erklärt: Warum 2026 das Jahr der KI-Kontrolle ist -- nicht der KI-Agenten

Agent Harnesses sind die fehlende Schicht zwischen intelligentem Modell und zuverlässigem System. Warum 73% aller Enterprise-Agenten unkontrolliert laufen -- und wie Sie das ändern.

AutorGiuliano FalcoFounder, EconLab AI

Datum18. März 2026

Lesezeit16 min

Das Problem: Agent Sprawl

Wir haben 2025 gelernt, wie man KI-Agenten baut. Tools wie LangChain, CrewAI, Claude Code und Cursor machten es einfacher als je zuvor. Das Ergebnis: Jedes Team baute seine eigenen Agenten -- oft mit Low-Code-Tools, ohne Abstimmung mit Platform Engineering.

Bassel Haidar bringt es auf den Punkt:

“Autonomy is not a model property -- it's an architectural property.”

Die Fehler die in Produktion wirklich schmerzen sind nicht “das Modell ist nicht schlau genug”:

Der Agent driftet nach 30 Schritten
Der Agent vergisst eine Entscheidung von vor zwei Stunden
Der Agent wiederholt denselben Fehler in drei verschiedenen Branches
Der Agent besteht einen Unit-Test aber verletzt eine Policy
Der Agent tut das Richtige aus dem falschen Grund -- und niemand kann beweisen welches

Das sind keine Intelligenz-Probleme. Das sind Kontroll-, Gedächtnis- und Verifikations-Probleme.

Was ist ein Agent Harness?

Ein Agent Harness ist die Kontrollschicht die um die Ausführung eines KI-Agenten gewickelt wird. Er ersetzt nicht das Agent-Framework -- er regiert es.

Anthropics Engineering-Team beschreibt es präzise: Der Harness verwaltet den Lebenszyklus, das Context-Window, den Tool-Zugang und die Sicherheitsgrenzen des Agenten.

Die Analogie: Container vs. Kubernetes. Der Container macht die Arbeit. Der Orchestrator entscheidet ob, wann und wie die Arbeit erlaubt ist.

Die Evolution: Prompt → Context → Harness

2023: Prompt Engineering -- “Wie formuliere ich die Anweisung?”
2025: Context Engineering -- “Welche Informationen bekommt das Modell?”
2026: Harness Engineering -- “In welcher Umgebung, mit welchen Grenzen und Feedback-Loops operiert das Modell?”

Die drei Governance-Schichten

Kai Renner definiert drei Schichten die jeder Harness implementieren muss:

1. Behavioral Governance: Was darf der Agent?

Welche Tools er aufrufen darf, welche Daten er lesen oder schreiben darf, welche externen Systeme er kontaktieren darf. Policy Enforcement auf der Execution-Ebene.

2. Operational Governance: Wie darf der Agent arbeiten?

Maximale Schritte pro Task, Token-Budget pro Session, Retry-Policies pro Tool, Execution-Timeouts, Kosten-Envelope. Ressourcen-Kontrolle auf der Runtime-Ebene.

3. Output Governance: Was darf der Agent produzieren?

Validierung vor externen Aktionen, Human-Approval-Gates für High-Stakes-Entscheidungen, Schema-Enforcement auf Tool-Call-Outputs, Audit-Trails. Verifikation und Accountability auf der Output-Ebene.

Ein reales Beispiel: Ein Fintech-Agent geriet in eine Runaway-Loop -- 847 Retry-Versuche, $2.200 API-Kosten, 14 unvollständige E-Mails an einen einzelnen Kunden, bevor ein Mensch eingriff. Das Modell funktionierte korrekt. Der Prompt war gut. Das Fehlen eines Harness war das Problem.

Anthropics vier Failure Modes und ihre Lösungen

Justin Young (Anthropic) identifiziert vier typische Fehlermöglichkeiten bei langlaufenden Agenten:

Over-Ambitious Execution: Agent versucht alles in einer Session zu bauen. Lösung: Feature-Liste als JSON, Agent arbeitet nur an EINEM Feature pro Session.
Premature Completion: Agent erklärt Projekt vorzeitig als fertig. Lösung: Explizites passes: false Feld, nur dieses darf geändert werden.
Inadequate Testing: Features bestehen Unit-Tests aber E2E funktioniert nicht. Lösung: Browser-Automation-Tools, testen wie ein menschlicher User.
Wasted Setup Time: Agent muss jede Session neu orientieren. Lösung: init.sh Script, claude-progress.txt für Kontext-Wiederherstellung.

Die Bausteine eines Harness

Jeder produktionsreife Harness besteht aus drei Bausteinen:

Commands/Skills: Fähigkeiten die man dem Agenten beibringt -- definiert als Markdown-Dateien mit ausführlichen Instruktionen
Hooks: Automatisierte Aktionen die bei Events ausgelöst werden -- z.B. Linting vor jedem Commit, Kosten-Check nach jedem API-Call
Guardrails: Harte Grenzen die nie überschritten werden dürfen -- Token-Budgets, Tool-Blacklists, Human-Approval für destruktive Aktionen

Was das für Unternehmen bedeutet

Für CTOs: Der Agent ist nicht das Produkt. Der Harness ist das Produkt. OpenAI hat über eine Million Zeilen Code mit Agenten geschrieben -- drei Ingenieure mergten 3,5 PRs pro Tag. Was diese Ingenieure tatsächlich taten war den Harness designen.
Für Compliance-Verantwortliche: Agent Harnesses sind das AI-Equivalent von internen Kontrollsystemen. Behavioral Governance = Zugriffskontrollen. Operational Governance = Ressourcen-Limits. Output Governance = Vier-Augen-Prinzip.
Für Entwickler: LangChain hielt das Modell gleich, änderte nur den Harness, und sprang von Top 30 auf Top 5 in einem Benchmark. Der Harness ist der größte Hebel für Agent-Qualität -- nicht das Modell.

Bei EconLab AI bringen wir eine einzigartige Perspektive in Harness Engineering: sieben Jahre Wirtschaftsprüfung und IT-Audit. Unsere CLAUDE.md-Dateien, Skills und Hooks sind nichts anderes als ein Agent Harness -- mit Audit-DNA.

Der Beweis: Vercels Text-to-SQL Experiment

Vercel führte ein Experiment durch das die These "Harness > Modell" eindrucksvoll bestätigt:

Metrik	Vorher (viele Tools)	Nachher (nur Bash + Files)
Accuracy	80%	100%
Token-Verbrauch	Baseline	-40%
Geschwindigkeit	Baseline	3.5x schneller

Was passierte: Vercel entfernte spezialisierte Tools und gab dem Agenten nur Bash und Dateisystem-Zugriff. Das Modell war identisch. Der Harness wurde einfacher — und die Ergebnisse wurden drastisch besser.

Das ist die Bitter Lesson (Richard Sutton) angewandt auf Agent-Design: Wenn Modelle schlauer werden, sollte der Harness einfacher werden. Over-Engineering ist der Grund für brechende Agenten, nicht das Modell.

Drei Systeme, eine Konvergenz

Unabhängig voneinander sind drei der wichtigsten Coding-Agent-Systeme auf dasselbe Architektur-Muster konvergiert:

System	Anbieter	Harness-Philosophie
Codex	OpenAI	Layered: Orchestrator / Executor / Recovery
Claude Code	Anthropic	Minimal: Read, Write, Edit, Bash + MCP/Skills
Manis	Meta	Reduce, Offload, Isolate

Alle drei teilen dieselbe Erkenntnis: Harness > Modell. Das Modell ist austauschbar. Der Harness — die Art wie Context gemanagt, Tools bereitgestellt und Fehler behandelt werden — entscheidet über Erfolg oder Scheitern.

Anthropics Justin Young beschreibt das als Initializer/Coding-Agent-Pattern:

Anthropic Harness	Ralph Loop	EconLab UltraLoop
Initializer Agent	PROMPT.md + specs/ erstellen	Brain Dump → PRD
Feature List (JSON)	fix_plan.md	tasks.json
claude-progress.txt	AGENT.md	Session-Bridge / Memory MCP
Coding Agent Loop	`while :; do ... done`	shlex / UltraLoop

Anthropic validiert damit offiziell die Prinzipien die Geoffrey Huntley empirisch entdeckt hat. Die wissenschaftliche Grundlage für den Ralph Loop — und unseren UltraLoop — ist jetzt stärker als je zuvor.

Die optimale Session-Startup-Sequenz

Anthropics Engineering-Team empfiehlt eine spezifische Startup-Sequenz für jeden Loop-Durchlauf:

Projektverzeichnis bestätigen (pwd)
Progress-Datei lesen (claude-progress.txt)
Git-Log auswerten (git log --oneline -20)
Feature-Liste laden (JSON, nicht Markdown — Modelle überschreiben JSON seltener)
Init-Script ausführen (init.sh — Dependencies, Environment)
E2E-Test laufen lassen (aktueller Stand als Baseline)
Nächstes Feature beginnen

Diese Sequenz verhindert die häufigsten Fehler: Agent arbeitet im falschen Verzeichnis, Agent hat keinen Kontext aus vorherigen Sessions, Agent beginnt Feature ohne den aktuellen Stand zu kennen.

Bei EconLab AI haben wir diese Sequenz als Standard für alle autonomen Loop-Setups übernommen — inklusive shlex (unser Telegram → Claude Code Orchestrator) und den UltraLoop.

Quellen

Young, J. / Anthropic (2026): Effective Harnesses for Long-Running Agents
Solo Swift Crafter (2026): "Harness Engineering 2026" — YouTube
Renner, K.: Three Governance Layers for Agent Harnesses
Haidar, B.: "Autonomy is not a model property"
Sutton, R. (2019): The Bitter Lesson
Vercel: Text-to-SQL Harness Experiment