Blog
AI CodingRalph LoopLessons LearnedAutomationUltraLoop

672 Stunden AI-Coding: Die haertesten Lektionen aus dem laengsten KI-Entwicklungsexperiment

37 Stunden ununterbrochene KI-Arbeit, 250+ Tasks, 3 ausgelieferte Projekte. Was Dan von Morning Maker Show gelernt hat — und was wir bei EconLab AI daraus gemacht haben.

AutorGiuliano FalcoFounder, EconLab AI
Datum
Lesezeit14 min
01

Das Experiment: 37 Stunden, 250 Tasks, 3 Projekte

37 Stunden ununterbrochene KI-Arbeit. 250+ erledigte Tasks. Ein 2.000-Zeilen-Anforderungsdokument. Dan von der Morning Maker Show hat nach eigener Aussage Hunderte Stunden YouTube-Videos geschaut und unzaehlige Artikel gelesen, um einen funktionierenden Ralph-Loop-Workflow zusammenzustellen.

Das Ergebnis: Drei vollstaendige Projekte — und ein Open-Source-Paket (npx @pagei/offloop) das den gesamten Workflow reproduzierbar macht.

Der Ralph Loop — benannt nach Ralph Wiggum aus den Simpsons, gepraegt von Geoffrey Huntley — ist konzeptionell simpel: Eine Endlosschleife die einen KI-Agenten immer wieder den gleichen Prompt ausfuehren laesst, bis alle Tasks erledigt sind. Jede Iteration startet mit frischem Kontext. Der State lebt in Dateien und Git, nicht im LLM-Memory.

Aber was auf dem Papier nach einer Bash-Zeile aussieht, ist in der Praxis ein komplexes System aus Requirements Engineering, Task-Dekomposition, Validierung und Fehlerbehandlung. Dan hat das in 672 Stunden Praxis gelernt — und diese Lektionen sind Gold wert.

02

Der Workflow: Von der Idee zum ausgelieferten Produkt

Phase 1: Brain Dump → PRD

Man schreibt Anforderungen in eigenen Worten auf — unstrukturiert, unvollstaendig, in natuerlicher Sprache. Ein Agent-Skill transformiert diesen rohen Input in ein professionelles Product Requirements Document (PRD). Dieses PRD wird zur "Source of Truth" fuer den gesamten Loop.

Warum das funktioniert: LLMs sind exzellent darin, unstrukturierte Anforderungen in strukturierte Dokumente zu uebersetzen. Was sie schlecht koennen: Aus einem vagen PRD die richtigen Implementierungsentscheidungen ableiten. Deshalb muss das PRD detailliert sein — 2.000 Zeilen sind keine Seltenheit.

Phase 2: PRD → Tasks

Das PRD wird in kleine, handhabbare Tasks zerlegt. Jeder Task hat:

  • Name und ID — eindeutig referenzierbar
  • Metadaten — Abhaengigkeiten, Prioritaet, geschaetzte Komplexitaet
  • Pass/Fail-Kriterien — automatisiert pruefbar (Tests, Linter, Build)
  • Spec-Datei — detaillierte Implementierungsanweisungen in einer separaten Datei

Die Task-Liste (tasks.json) muss kompakt bleiben, weil sie bei jeder Iteration in den Kontext geladen wird. Jedes Byte zaehlt wenn das Context Window begrenzt ist.

Phase 3: Docker-Sandbox → Loop

Der Agent laeuft in einem Docker-Container mit --dangerously-skip-permissions. Das ist nur sicher innerhalb der Sandbox. Der Loop arbeitet die Task-Liste sequenziell ab, commitet nach jeder erfolgreichen Task in Git, und startet die naechste Iteration mit frischem Kontext.

Wenn ein Task fehlschlaegt, wird er zurueckgesetzt und erneut versucht — bis zu einem konfigurierbaren Retry-Limit. Wenn das Limit erreicht ist, wird der Task als "blocked" markiert und der naechste beginnt.

03

Die 7 haertesten Lektionen

1. "Die Dumb Zone vermeiden"

Nach einiger Zeit im Kontext vergisst das Modell fruehe Teile der Konversation — ein Phaenomen das als "Context Rot" oder "Context Degradation" bekannt ist. MIT-Forscher haben gezeigt, dass die Accuracy von LLMs bei langen Kontexten drastisch sinkt. Der Loop loest das elegant: Jede Iteration startet frisch. State wird in Textdateien und Git-Commits gehalten, nicht im LLM-Kontext.

2. Task-Review NICHT ueberspringen

Dan warnt ausdruecklich: "Der Drang alles abzunicken ist gross — aber wer nicht reviewt, erlebt nasty surprises." Jede Task-Liste muss manuell geprueft werden bevor der Loop startet. Tasks die zu gross, zu vage oder falsch priorisiert sind, fuehren zu Kaskadenfehlern die den gesamten Run ruinieren koennen.

3. Dokumentation einbinden — oder der Agent erfindet APIs

Fuer Drittanbieter-Services (Stripe, Auth0, Supabase) die Docs als Markdown speichern und im Prompt verlinken. Ohne das entsteht "Implementation Drift" — der Agent erfindet API-Endpoints die nicht existieren, weil sein Trainingswissen veraltet ist.

4. Bootstrap vor dem Loop

Die Codebasis manuell vorbereiten: Projektstruktur, Dependencies, Basis-Konfiguration, Test-Setup. Der Agent ist signifikant besser darin, bestehenden Code zu erweitern als von Null zu starten. Matt Pocock bestaetigt das in seinem Ralph-Loop-Tutorial: "Der Agent braucht eine solide Basis um darauf aufzubauen."

5. Git als Sicherheitsnetz

Jeder erfolgreiche Task = ein Commit. Wenn Task N+1 den Code zerstoert, reverted man zu Task N. Ohne Git ist ein 37-Stunden-Run ein Gluecksspiel. Bei EconLab AI haben wir das zu einem Checkpoint-System erweitert: Automatische Git-Tags vor strukturellen Aenderungen, mit Rollback-Capability ueber einen eigenen CLI-Befehl.

6. Spec-Dateien statt grosse Prompts

Statt einen riesigen Prompt zu schreiben, referenziert jeder Task eine separate Spec-Datei. Das haelt den Kontext schlank und die Instruktionen praezise. Anthropic bestaetigt in ihrer Forschung zu "Effective Harnesses for Long-Running Agents": Die Qualitaet der Ergebnisse korreliert direkt mit der Praezision der Task-Spezifikation, nicht mit der Laenge des Prompts.

7. Docker ist nicht optional

--dangerously-skip-permissions OHNE Docker = der Agent hat vollen Zugriff auf Ihr System. Dateien loeschen, Prozesse killen, Netzwerkverkehr — alles moeglich. Docker isoliert den Blast Radius auf den Container. Nono.sh bietet eine leichtgewichtige Alternative fuer macOS-Sandboxing auf OS-Level.

04

offloop: Der Workflow als Open-Source-Paket

Dan hat den gesamten Workflow als Open-Source-Paket veroeffentlicht: npx @pagei/offloop. Es automatisiert:

  • PRD-Generierung aus Brain-Dump-Notizen
  • Task-Dekomposition mit automatischer Spec-Datei-Erstellung
  • Docker-Container-Setup mit vorkonfigurierter Sandbox
  • Loop-Execution mit Git-Commits nach jedem Task
  • Status-Reporting ueber die Task-Liste

Das Paket zeigt einen wichtigen Trend: Die Infrastruktur um KI-Agenten herum — das "Harness" — wird zum eigentlichen Differenzierungsmerkmal. Das Modell ist austauschbar. Der Harness entscheidet ueber Erfolg oder Scheitern.

Vergleichbare Tools: Matt Pococks Ralph-Setup, Karpathys Autoresearch Framework, Anthropics eigene Sandbox-Runtime. Alle basieren auf dem gleichen Prinzip: Frische Sessions, persistenter State, automatisierte Validierung.

05

Unsere Weiterentwicklung: Der EconLab UltraLoop

Bei EconLab AI haben wir den Ralph Loop nicht einfach uebernommen — wir haben ihn weiterentwickelt. Unser UltraLoop adressiert vier Schwaechen des klassischen Ansatzes:

1. Persistentes Cross-Session-Wissen

Der klassische Ralph Loop startet jede Iteration bei Null. Das ist gut fuer Context Rot, aber schlecht fuer Lerneffekte. Unser UltraLoop speichert Erkenntnisse aus vorherigen Iterationen in strukturierten Dateien (claude-progress.txt, AGENTS.md) die bei jeder neuen Session geladen werden. Der Agent erinnert sich an Fehler und Loesungen — ohne unter Context Rot zu leiden.

2. Automatische Context-Rotation

Statt einer einfachen Bash-Schleife orchestriert der UltraLoop den Prompt-Aufbau dynamisch: Nur die relevanten Kontextdateien werden geladen, basierend auf dem aktuellen Task. Das reduziert den Context-Overhead von ~5.000 Tokens auf ~500 Tokens pro Session.

3. Checkpoint-basiertes Recovery

Nicht nur Git-Commits, sondern benannte Checkpoints mit Typ-Klassifizierung (FEAT, FIX, SAFE, MILE). Rollback auf einen spezifischen Checkpoint ueber CLI, nicht ueber Git-Log-Suche.

4. Audit-Trail

Jede Entscheidung des Agenten wird dokumentiert — welcher Task, welcher Prompt, welches Ergebnis, welche Fehler. Das ist nicht nur Best Practice, sondern mit dem EU AI Act (ab August 2026 relevant) auch zunehmend eine regulatorische Anforderung.

06

Die Zahlen im Vergleich

MetrikDan (Morning Maker)EconLab UltraLoop
Laengster Run37 StundenKontinuierlich (multi-day)
Tasks pro Run250+Variabel (project-abhaengig)
Projekte ausgeliefert330+ (seit 2025)
Basis-WorkflowRalph LoopUltraLoop (Ralph-Derivat)
PersistenzGit + tasks.jsonGit + Checkpoints + Progress-Files + AGENTS.md
SandboxingDockerDocker + Nono.sh + Seatbelt
Agent-SystemClaude Code (Single)100+ spezialisierte Agents + 17 Skills
Audit-TrailGit-HistoryStrukturierte Logs + Git + Checkpoint-Metadaten

Dans Experiment hat uns drei Dinge bestaetigt: Der Ralph Loop funktioniert in der Praxis fuer echte Projekte. State-Management in Dateien schlaegt State im Kontext. Docker-Sandboxing ist nicht verhandelbar — besonders fuer autonome Nacht-Laeufe.

Was wir hinzugefuegt haben: Persistentes Lernen, strukturierte Recovery, Audit-Faehigkeit und Multi-Agent-Orchestrierung. Der UltraLoop ist kein Gegenentwurf zum Ralph Loop — er ist seine natuerliche Evolution fuer produktive Umgebungen.

07

Was Sie mitnehmen sollten

Ob Sie Dans offloop-Paket nutzen, Matt Pococks Setup nachbauen, oder Ihren eigenen Loop entwickeln — die Kernprinzipien sind identisch:

  1. Frische Sessions schlagen lange Sessions. Context Rot ist real. Starten Sie jede Iteration mit frischem Kontext.
  2. State gehoert in Dateien, nicht ins LLM. Git, JSON, Markdown — alles besser als LLM-Memory.
  3. Validierung vor Iteration. Kein Task gilt als erledigt ohne automatisierte Pruefung (Tests, Build, Linter).
  4. Sandboxing ist Pflicht. Docker, Nono.sh, oder OS-Level-Isolation. Kein autonomer Agent ohne Sandbox.
  5. Das Harness ist wichtiger als das Modell. Claude Opus 4.6, GPT-5, Gemini 3 — alle gut genug. Der Unterschied liegt in der Infrastruktur drumherum.

672 Stunden AI-Coding haben gezeigt: Die Zukunft der Softwareentwicklung ist nicht "KI ersetzt Entwickler". Sie ist "Entwickler die KI-Systeme orchestrieren, produzieren 10x den Output". Und dafuer braucht man keine 672 Stunden — man braucht den richtigen Loop.

Über den Autor

Giuliano Falco

Founder, EconLab AI

7 Jahre Wirtschaftsprüfung und IT-Audit. Jetzt baut er mit Agentic Coding die nächste Generation von Audit- und Enterprise-Software.

Bereit für den nächsten Schritt?

Wir beraten zu KI-Strategie, EU AI Act und Agentic Coding.

Gespräch vereinbaren