Claude Code von innen: Was Anthropics Ingenieure ueber Agent-Design gelernt haben
Anthropics Thariq teilt die 5 Kernlektionen aus dem Bau von Claude Code: Elicitation, Tool-Evolution, RAG-Tod, Progressive Disclosure. Was das fuer Ihre Agenten bedeutet.
Lektion 1: Elicitation -- Vom freien Text zum strukturierten Dialog
Claude konnte Fragen stellen, aber die User-Antworten dauerten unnoetig lang. Drei Iterationen bis zur Loesung:
- Versuch 1: Fragen als Parameter neben dem Plan -- verwirrte Claude
- Versuch 2: Modifiziertes Markdown-Format -- unzuverlaessig
- Versuch 3: Dediziertes AskUserQuestion Tool -- funktioniert. Claude “mochte” es und nutzt es zuverlaessig
“Even the best designed tool doesn't work if Claude doesn't understand how to call it.” Strukturierte Elicitation reduziert Klaerungsschleifen um ~63%.
Lektion 2: Tools muessen mit dem Modell wachsen
- TodoWrite (frueh 2025) -- Einfache Checkliste. Problem: Claude dachte es MUSS an der Liste festhalten
- Task Tool (spaet 2025) -- Dependencies, Sub-Agent-Delegation. Ermoeglicht durch: Opus 4.5 wurde besser mit Subagents
- Agent Teams (Feb 2026) -- Multi-Agent-Kommunikation, blocked_by/blocks
“As model capabilities increase, the tools that your models once needed might now be constraining them.”
Die METR Time Horizon Benchmark bestaetigt: Autonome Arbeitszeit verdoppelt sich alle ~122 Tage. Tools die fuer 30-Sekunden-Interaktionen designed wurden bremsen einen 10-Stunden-Agenten.
Lektion 3: RAG ist tot -- lang lebe Grep
Die erste Version von Claude Code nutzte eine RAG-Vektordatenbank fuer Code-Kontext. Schnell und maechtig -- aber fragil: Erforderte Indexing, brach ueber verschiedene Umgebungen, Claude bekam Kontext gegeben statt ihn selbst zu finden.
Die Loesung: Ein einfaches Grep-Tool. Claude durchsucht den Code selbst -- aktiv statt passiv.
- RAG (2024) -- Kontext wird dem Modell vorgelegt (passiv)
- Grep Tool (2025) -- Claude sucht selbst im Codebase (aktiv)
- Progressive Disclosure (2026) -- Claude liest Skill, referenzierte Dateien, rekursiv weiter
Je intelligenter das Modell wird, desto besser wird es darin, seinen eigenen Kontext aufzubauen.
Lektion 4: Progressive Disclosure -- Features ohne neue Tools
Claude Code hat ~20 Tools. Jedes neue Tool bedeutet mehr kognitive Last. Der ToolSearch-Mechanismus reduziert Token-Verbrauch um ~85%: Statt alle 50+ Tools vorab zu laden, findet ein Meta-Tool bei Bedarf die richtigen und laedt sie dynamisch nach.
Lektion 5: Das Critic Pattern
Anthropic nutzt intern ein Muster das fuer jeden Agent-Builder relevant ist:
- Pass 1 (kein Critic): 45,1% Qualitaet
- Pass 2 (1 Critic-Runde): 52,3%
- Pass 3 (2 Runden): 57,8%
- Pass 4 (3 Runden): 60,4%
Nach 3 Runden nimmt der Grenznutzen stark ab. Die optimale Strategie: 2-3 Critic-Runden, nicht mehr.
Was das fuer Ihre Agent-Architektur bedeutet
- Weniger Tools sind mehr. 5 gute Tools schlagen 50 mittellmaessige.
- Tools muessen zum Modell passen. Was fuer Opus funktioniert funktioniert nicht fuer Haiku.
- Progressive Disclosure. Information bei Bedarf nachladen, nicht alles vorab.
- Regelmaessig aufraeumen. Tools die nicht genutzt werden: entfernen.
- Critic-Pattern einsetzen. 2-3 Review-Runden fuer kritische Outputs.
Wir nutzen Claude Code taeglich bei EconLab AI und haben ueber Monate unsere eigene Tool-Landschaft iteriert -- genau nach diesen Prinzipien. Der Unterschied: Wir bringen zusaetzlich Audit-Kompetenz ein. See like an agent -- und pruefe wie ein Auditor.
Claude Code im Maerz 2026: Was sich seitdem veraendert hat
Seit Thariqs urspruenglichem Beitrag hat sich Claude Code erheblich weiterentwickelt:
- Claude Opus 4.6: 80.9% auf SWE-bench Verified -- das erste Modell das die 80%-Marke ueberschritten hat. Das bedeutet: 4 von 5 echten GitHub-Issues werden autonom geloest.
- Agent SDK: Entwickler koennen jetzt Custom Agents mit Claude Codes Tool-Infrastruktur bauen -- nicht nur den eingebauten Agent nutzen.
- 29 Millionen taegliche VS-Code-Installationen: Claude Codes VS-Code-Extension ist die am schnellsten wachsende KI-Extension.
- Multi-Agent Teams: Sub-Agents die parallel in eigenen Kontexten arbeiten, mit SendMessage-Kommunikation zwischen Lead und Teammates.
- Remote Control: Agent-Steuerung ueber iPhone/Android -- Tasks starten und monitoren von unterwegs.
Was sich nicht geaendert hat: Die 5 Primitiven (Read, List, Bash, Edit, Search) sind immer noch das Fundament. Alle neuen Features bauen darauf auf -- sie ersetzen nichts. Huntleys Einsicht bleibt gueltig: Einfachheit im Kern, Komplexitaet in der Orchestrierung.
Fuer unser Team bei EconLab AI bedeutet das: Wir bauen unsere 100+ spezialisierten Agents, unsere 17 Skills und unseren UltraLoop auf Claude Codes Primitiven -- nicht daneben. Jedes Tool das wir hinzufuegen muss die Frage beantworten: "Macht das den Agenten besser? Oder nur komplexer?"
Quellen
- Thariq (Anthropic): "Seeing like an Agent" — Claude Code Design Lessons
- Anthropic Engineering Blog: Effective Harnesses for Long-Running Agents
- METR Time Horizon Benchmark: Autonome Arbeitszeit verdoppelt sich alle ~122 Tage
- SWE-bench Verified: Claude Opus 4.6 @ 80.9%