Blog
Agentic CodingArchitekturRLMAgentSMClaude Code

Agentic Coding: Wie KI-Agenten Software bauen -- Architektur, Forschung und Praxis

Was steckt hinter Agentic Coding? Von Agent Loop ueber Sandboxing bis zu MIT-Forschung (RLM, AgentSM): Der vollstaendige Architektur-Stack moderner Coding-Agenten.

AutorGiuliano FalcoFounder, EconLab AI
Datum
Lesezeit14 min
01

Was ist Agentic Coding?

Software wird nicht mehr nur von Menschen geschrieben. Seit 2024 entsteht ein wachsender Anteil produktionsreifer Software durch KI-Agenten -- autonome Systeme, die Code lesen, schreiben, testen und deployen. Nicht als Autovervollstaendigung im Editor, sondern als eigenstaendige Akteure mit Zugriff auf Terminal, Dateisystem und externe Dienste.

Agentic Coding bedeutet: Ein KI-Modell fuehrt nicht einzelne Anweisungen aus, sondern agiert als autonomer Agent in einer Entwicklungsumgebung. Es plant, handelt, beobachtet das Ergebnis und passt seinen Ansatz an -- in einer Schleife, bis die Aufgabe erledigt ist.

  • Autovervollstaendigung: Modell schlaegt naechste Zeile vor (GitHub Copilot)
  • Chat-basiert: Mensch fragt, Modell antwortet mit Code (ChatGPT, Claude.ai)
  • Agentic: Agent plant mehrstufig, fuehrt selbst aus, verifiziert (Claude Code, Cursor, Devin)

Bei Agentic Coding gibt der Mensch das Ziel vor. Der Agent entscheidet selbststaendig ueber den Weg.

02

Der Architektur-Stack: 6 Schichten

Jedes agentic Coding-System -- ob Claude Code, Cursor, Pi/OpenClaw oder Aider -- besteht aus denselben grundlegenden Architekturschichten.

Schicht 1: Execution Environment (Bash/REPL)

Die Basis: Ein Agent braucht Zugriff auf ein Terminal. Ohne Shell-Zugriff kann er keine Builds starten, keine Tests laufen lassen, keine Git-Operationen durchfuehren. Claude Code behandelt Bash als eines seiner 18 eingebauten Tools. Pi geht radikaler -- nur vier Tools: read, write, edit, bash.

Schicht 2: Agent Runtime (Der Agent Loop)

Das Herzstueck jedes Agents ist eine Schleife:

  1. THINK -- Aufgabe verstehen, naechsten Schritt planen
  2. TOOL -- Passendes Tool waehlen, Parameter formulieren
  3. EXECUTE -- Tool ausfuehren, Output erfassen
  4. EVALUATE -- Ergebnis pruefen. Ziel erreicht? Fertig. Nicht? Zurueck zu THINK.

Dieses “ReAct-Pattern” (Reasoning + Acting) ist der Kern.

Schicht 3: RPC und Tool-Protokolle

Wie kommuniziert der Agent mit seinen Tools? Zwei dominante Ansaetze:

  • Model Context Protocol (MCP) -- Anthropics offener Standard. JSON-RPC-basiert, bidirektionale Kommunikation. Wird zum De-facto-Standard.
  • CLI-First -- Pi's Ansatz: Standard-Unix-Tools. stdin rein, stdout raus. Einfacher, weniger Overhead.

Schicht 4: Coding Harness

Der Harness umhuellt alles und definiert das Verhalten des Gesamtsystems. Er ist 2026 der entscheidende Differenziator -- nicht das Modell.

“Multi-Step Execution Tasks haben irreduzible Koordinationsanforderungen -- Context Management, State Persistence, Error Recovery -- die KEINE Reasoning-Probleme fuer das Modell sind, sondern Infrastruktur-Probleme fuer das System.”

Schicht 5: Sandboxing und Sicherheit

Prompt Injection ist die groesste Bedrohung. Anthropics Zahlen (2026): Sandboxing reduziert die ausnutzbare Angriffsflaeche um 95%. Erkennungsrate fuer bekannte Injections: 98,5%.

Schicht 6: Strategische Evolution

  • 2023: Modelle waren der Bottleneck
  • 2024: Tools wurden wichtiger (MCP)
  • 2025: Runtimes reiften (LangGraph, Pi Agent Core)
  • 2026: Harnesses sind der Fokus. Das Modell ist nicht der Bottleneck -- der Harness ist die Architektur.
03

Recursive Language Models (RLM) -- Die Kontextgrenze sprengen

Zhang, Kraska und Khattab (MIT, Dezember 2025) loesen ein fundamentales Problem: Context Rot. Je laenger der Input, desto schlechter die Performance -- selbst bei Modellen mit 272K Token Kontextfenster.

Die Loesung: Der Prompt wird externalisiert. Das Modell bekommt nicht den gesamten Text, sondern eine Python-REPL-Umgebung, in der der Text als Variable liegt. Es schreibt Code, um darin zu navigieren -- und kann sich rekursiv selbst aufrufen fuer Teilprobleme.

Das Ergebnis: Verarbeitung von 10 Millionen+ Tokens. GPT-5 mit RLM erreicht 91,33% auf einem Benchmark, auf dem das Basismodell bei 0% liegt.

Fuer Agentic Coding bedeutet das: Agents koennen bald ganze Codebases verarbeiten, nicht nur einzelne Dateien. Die Architektur-Schicht 1 (Bash/REPL) wird zum primaeren Kanal fuer Kontext-Navigation.

04

AgentSM -- Agents die sich erinnern

Biswal et al. (UC Berkeley, Amazon, Oracle, Snowflake, Januar 2026) adressieren das Amnesie-Problem: Agents wiederholen bei jeder neuen Aufgabe die gleichen explorativen Schritte. Bei 100 Fragen zur gleichen Datenbank sind weniger als 20% der Agent-Trajektorien ueberhaupt distinkt.

Die Loesung: Semantic Memory. Agent-Trajektorien werden strukturiert gespeichert, semantisch annotiert und bei aehnlichen Aufgaben wiederverwendet. Haeufige Tool-Kombinationen werden automatisch zu Composite Tools gebuendelt.

Das Ergebnis: 25% kuerzere Trajektorien, 35% bessere Accuracy, State-of-the-Art auf dem Spider 2.0 Benchmark mit 44,8%.

Die Synergie

RLMs loesen das Problem “Input zu lang”. AgentSM loest das Problem “gleiche Arbeit wiederholt”. Kombiniert man beides, entsteht ein Agent, der riesige Codebases verarbeiten kann UND sich an seine bisherigen Explorationen erinnert.

05

EconLab AI: Wie wir Agentic Coding anwenden

Wir positionieren uns als “The Agentic AI Engineering Company” -- nicht weil es ein Buzzword ist, sondern weil wir diese Methodik in der Praxis validiert haben. Sieben Produkte, jedes mit Agentic Coding gebaut.

Unser Stack

  • 24 spezialisierte Agents -- Code Review, Testing, Research, UI Design, Deployment. Jeder Agent hat einen spezifischen System-Prompt und Tool-Zugang.
  • 17 Skills -- Wiederverwendbare Faehigkeiten: TDD, Debugging, Brainstorming, Plan-Execution. Skills definieren nicht WAS der Agent tut, sondern WIE.
  • EconLab UltraLoop -- Unsere Weiterentwicklung des Ralph Loop mit persistentem Cross-Session-Wissen (inspiriert von AgentSM), automatischer Context-Rotation (inspiriert von RLM) und Checkpoint-basiertem Recovery.
  • Context Engineering nach RLM-Prinzip -- Statt 5.000+ Tokens Kontext in jede Session zu laden, geben wir dem Agent ein minimales System-Prompt und eine “Karte” zum On-Demand-Zugriff. Token-Ersparnis: geschaetzt 70-80%.

Was damit entsteht

  • VisionDocs -- Audit-Dokumentation (ISA 315). ISA-315-Compliance als Agent-Skill.
  • LMAT -- Konten-Migration fuer WP. Multi-Phase-Workflow mit Checksummen.
  • Governance Engineering -- Vorstandsverguetungs-Benchmarking. 6D-Algorithmus als DSR-Artefakt.
  • ImmoRender -- Real Estate AI Marketing. Multi-Agent-System, 47 Kunden.
  • shlex -- Telegram → Claude Code. Agent-Orchestrierung ueber Messaging.
06

Was uns differenziert

Die meisten KI-Agenturen nutzen LLMs als Chat-Interface. Wir nutzen sie als autonome Entwickler in einem durchdachten Architektur-Stack.

  • Audit-Mindset als Harness: 7 Jahre Wirtschaftspruefung und IT-Audit bedeuten Compliance-by-Design. Nicht als nachtraegliches Feature, sondern als Architektur-Prinzip. Jeder Agent hat Audit-Trails. Jede Entscheidung ist nachvollziehbar.
  • Forschungsnaehe: Wir analysieren aktuelle Papers (MIT RLM, AgentSM, Anthropic Harness Engineering) und uebersetzen sie in praktische Patterns.
  • Eigene Produkte als Beweis: Wir beraten nicht nur. Wir bauen. Und jedes Produkt validiert die Methodik.

2026 ist das Jahr, in dem Agentic Coding vom Experiment zum Standard wird. Wer heute Software baut ohne Agentic Coding, baut morgen zu langsam. Wer es ohne Audit-Mindset baut, baut nicht pruefbar. Wir bei EconLab AI machen beides.

Quellenverzeichnis

  • Zhang, A.L., Kraska, T. & Khattab, O. (2025). Recursive Language Models. arXiv:2512.24601v1. MIT.
  • Biswal, A. et al. (2026). AgentSM: Semantic Memory for Agentic Text-to-SQL. arXiv:2601.15709v1.
  • Anthropic Engineering (2026). Making Claude Code More Secure and Autonomous.
  • Anthropic Engineering (2026). Effective Harnesses for Long-Running Agents.
  • Pappas, E. (2026). The Agent Harness Is the Architecture. DEV.to.
  • Ronacher, A. (2026). Pi -- The Minimal Agent Within OpenClaw.
  • LangChain Blog (2025). Agent Frameworks, Runtimes, and Harnesses.
  • Huntley, G. (2025). Everything is a Ralph Loop. Anthropic.
Über den Autor

Giuliano Falco

Founder, EconLab AI

7 Jahre Wirtschaftsprüfung und IT-Audit. Jetzt baut er mit Agentic Coding die nächste Generation von Audit- und Enterprise-Software.

Bereit für den nächsten Schritt?

Wir beraten zu KI-Strategie, EU AI Act und Agentic Coding.

Gespräch vereinbaren