672 Stunden AI-Coding: Die haertesten Lektionen aus dem laengsten KI-Entwicklungsexperiment
37 Stunden ununterbrochene KI-Arbeit, 250+ Tasks, 3 ausgelieferte Projekte. Was Dan von Morning Maker Show gelernt hat — und was wir bei EconLab AI daraus gemacht haben.
Das Experiment: 37 Stunden, 250 Tasks, 3 Projekte
37 Stunden ununterbrochene KI-Arbeit. 250+ erledigte Tasks. Ein 2.000-Zeilen-Anforderungsdokument. Dan von der Morning Maker Show hat nach eigener Aussage Hunderte Stunden YouTube-Videos geschaut und unzaehlige Artikel gelesen, um einen funktionierenden Ralph-Loop-Workflow zusammenzustellen.
Das Ergebnis: Drei vollstaendige Projekte — und ein Open-Source-Paket (npx @pagei/offloop) das den gesamten Workflow reproduzierbar macht.
Der Ralph Loop — benannt nach Ralph Wiggum aus den Simpsons, gepraegt von Geoffrey Huntley — ist konzeptionell simpel: Eine Endlosschleife die einen KI-Agenten immer wieder den gleichen Prompt ausfuehren laesst, bis alle Tasks erledigt sind. Jede Iteration startet mit frischem Kontext. Der State lebt in Dateien und Git, nicht im LLM-Memory.
Aber was auf dem Papier nach einer Bash-Zeile aussieht, ist in der Praxis ein komplexes System aus Requirements Engineering, Task-Dekomposition, Validierung und Fehlerbehandlung. Dan hat das in 672 Stunden Praxis gelernt — und diese Lektionen sind Gold wert.
Der Workflow: Von der Idee zum ausgelieferten Produkt
Phase 1: Brain Dump → PRD
Man schreibt Anforderungen in eigenen Worten auf — unstrukturiert, unvollstaendig, in natuerlicher Sprache. Ein Agent-Skill transformiert diesen rohen Input in ein professionelles Product Requirements Document (PRD). Dieses PRD wird zur "Source of Truth" fuer den gesamten Loop.
Warum das funktioniert: LLMs sind exzellent darin, unstrukturierte Anforderungen in strukturierte Dokumente zu uebersetzen. Was sie schlecht koennen: Aus einem vagen PRD die richtigen Implementierungsentscheidungen ableiten. Deshalb muss das PRD detailliert sein — 2.000 Zeilen sind keine Seltenheit.
Phase 2: PRD → Tasks
Das PRD wird in kleine, handhabbare Tasks zerlegt. Jeder Task hat:
- Name und ID — eindeutig referenzierbar
- Metadaten — Abhaengigkeiten, Prioritaet, geschaetzte Komplexitaet
- Pass/Fail-Kriterien — automatisiert pruefbar (Tests, Linter, Build)
- Spec-Datei — detaillierte Implementierungsanweisungen in einer separaten Datei
Die Task-Liste (tasks.json) muss kompakt bleiben, weil sie bei jeder Iteration in den Kontext geladen wird. Jedes Byte zaehlt wenn das Context Window begrenzt ist.
Phase 3: Docker-Sandbox → Loop
Der Agent laeuft in einem Docker-Container mit --dangerously-skip-permissions. Das ist nur sicher innerhalb der Sandbox. Der Loop arbeitet die Task-Liste sequenziell ab, commitet nach jeder erfolgreichen Task in Git, und startet die naechste Iteration mit frischem Kontext.
Wenn ein Task fehlschlaegt, wird er zurueckgesetzt und erneut versucht — bis zu einem konfigurierbaren Retry-Limit. Wenn das Limit erreicht ist, wird der Task als "blocked" markiert und der naechste beginnt.
Die 7 haertesten Lektionen
1. "Die Dumb Zone vermeiden"
Nach einiger Zeit im Kontext vergisst das Modell fruehe Teile der Konversation — ein Phaenomen das als "Context Rot" oder "Context Degradation" bekannt ist. MIT-Forscher haben gezeigt, dass die Accuracy von LLMs bei langen Kontexten drastisch sinkt. Der Loop loest das elegant: Jede Iteration startet frisch. State wird in Textdateien und Git-Commits gehalten, nicht im LLM-Kontext.
2. Task-Review NICHT ueberspringen
Dan warnt ausdruecklich: "Der Drang alles abzunicken ist gross — aber wer nicht reviewt, erlebt nasty surprises." Jede Task-Liste muss manuell geprueft werden bevor der Loop startet. Tasks die zu gross, zu vage oder falsch priorisiert sind, fuehren zu Kaskadenfehlern die den gesamten Run ruinieren koennen.
3. Dokumentation einbinden — oder der Agent erfindet APIs
Fuer Drittanbieter-Services (Stripe, Auth0, Supabase) die Docs als Markdown speichern und im Prompt verlinken. Ohne das entsteht "Implementation Drift" — der Agent erfindet API-Endpoints die nicht existieren, weil sein Trainingswissen veraltet ist.
4. Bootstrap vor dem Loop
Die Codebasis manuell vorbereiten: Projektstruktur, Dependencies, Basis-Konfiguration, Test-Setup. Der Agent ist signifikant besser darin, bestehenden Code zu erweitern als von Null zu starten. Matt Pocock bestaetigt das in seinem Ralph-Loop-Tutorial: "Der Agent braucht eine solide Basis um darauf aufzubauen."
5. Git als Sicherheitsnetz
Jeder erfolgreiche Task = ein Commit. Wenn Task N+1 den Code zerstoert, reverted man zu Task N. Ohne Git ist ein 37-Stunden-Run ein Gluecksspiel. Bei EconLab AI haben wir das zu einem Checkpoint-System erweitert: Automatische Git-Tags vor strukturellen Aenderungen, mit Rollback-Capability ueber einen eigenen CLI-Befehl.
6. Spec-Dateien statt grosse Prompts
Statt einen riesigen Prompt zu schreiben, referenziert jeder Task eine separate Spec-Datei. Das haelt den Kontext schlank und die Instruktionen praezise. Anthropic bestaetigt in ihrer Forschung zu "Effective Harnesses for Long-Running Agents": Die Qualitaet der Ergebnisse korreliert direkt mit der Praezision der Task-Spezifikation, nicht mit der Laenge des Prompts.
7. Docker ist nicht optional
--dangerously-skip-permissions OHNE Docker = der Agent hat vollen Zugriff auf Ihr System. Dateien loeschen, Prozesse killen, Netzwerkverkehr — alles moeglich. Docker isoliert den Blast Radius auf den Container. Nono.sh bietet eine leichtgewichtige Alternative fuer macOS-Sandboxing auf OS-Level.
offloop: Der Workflow als Open-Source-Paket
Dan hat den gesamten Workflow als Open-Source-Paket veroeffentlicht: npx @pagei/offloop. Es automatisiert:
- PRD-Generierung aus Brain-Dump-Notizen
- Task-Dekomposition mit automatischer Spec-Datei-Erstellung
- Docker-Container-Setup mit vorkonfigurierter Sandbox
- Loop-Execution mit Git-Commits nach jedem Task
- Status-Reporting ueber die Task-Liste
Das Paket zeigt einen wichtigen Trend: Die Infrastruktur um KI-Agenten herum — das "Harness" — wird zum eigentlichen Differenzierungsmerkmal. Das Modell ist austauschbar. Der Harness entscheidet ueber Erfolg oder Scheitern.
Vergleichbare Tools: Matt Pococks Ralph-Setup, Karpathys Autoresearch Framework, Anthropics eigene Sandbox-Runtime. Alle basieren auf dem gleichen Prinzip: Frische Sessions, persistenter State, automatisierte Validierung.
Unsere Weiterentwicklung: Der EconLab UltraLoop
Bei EconLab AI haben wir den Ralph Loop nicht einfach uebernommen — wir haben ihn weiterentwickelt. Unser UltraLoop adressiert vier Schwaechen des klassischen Ansatzes:
1. Persistentes Cross-Session-Wissen
Der klassische Ralph Loop startet jede Iteration bei Null. Das ist gut fuer Context Rot, aber schlecht fuer Lerneffekte. Unser UltraLoop speichert Erkenntnisse aus vorherigen Iterationen in strukturierten Dateien (claude-progress.txt, AGENTS.md) die bei jeder neuen Session geladen werden. Der Agent erinnert sich an Fehler und Loesungen — ohne unter Context Rot zu leiden.
2. Automatische Context-Rotation
Statt einer einfachen Bash-Schleife orchestriert der UltraLoop den Prompt-Aufbau dynamisch: Nur die relevanten Kontextdateien werden geladen, basierend auf dem aktuellen Task. Das reduziert den Context-Overhead von ~5.000 Tokens auf ~500 Tokens pro Session.
3. Checkpoint-basiertes Recovery
Nicht nur Git-Commits, sondern benannte Checkpoints mit Typ-Klassifizierung (FEAT, FIX, SAFE, MILE). Rollback auf einen spezifischen Checkpoint ueber CLI, nicht ueber Git-Log-Suche.
4. Audit-Trail
Jede Entscheidung des Agenten wird dokumentiert — welcher Task, welcher Prompt, welches Ergebnis, welche Fehler. Das ist nicht nur Best Practice, sondern mit dem EU AI Act (ab August 2026 relevant) auch zunehmend eine regulatorische Anforderung.
Die Zahlen im Vergleich
| Metrik | Dan (Morning Maker) | EconLab UltraLoop |
|---|---|---|
| Laengster Run | 37 Stunden | Kontinuierlich (multi-day) |
| Tasks pro Run | 250+ | Variabel (project-abhaengig) |
| Projekte ausgeliefert | 3 | 30+ (seit 2025) |
| Basis-Workflow | Ralph Loop | UltraLoop (Ralph-Derivat) |
| Persistenz | Git + tasks.json | Git + Checkpoints + Progress-Files + AGENTS.md |
| Sandboxing | Docker | Docker + Nono.sh + Seatbelt |
| Agent-System | Claude Code (Single) | 100+ spezialisierte Agents + 17 Skills |
| Audit-Trail | Git-History | Strukturierte Logs + Git + Checkpoint-Metadaten |
Dans Experiment hat uns drei Dinge bestaetigt: Der Ralph Loop funktioniert in der Praxis fuer echte Projekte. State-Management in Dateien schlaegt State im Kontext. Docker-Sandboxing ist nicht verhandelbar — besonders fuer autonome Nacht-Laeufe.
Was wir hinzugefuegt haben: Persistentes Lernen, strukturierte Recovery, Audit-Faehigkeit und Multi-Agent-Orchestrierung. Der UltraLoop ist kein Gegenentwurf zum Ralph Loop — er ist seine natuerliche Evolution fuer produktive Umgebungen.
Was Sie mitnehmen sollten
Ob Sie Dans offloop-Paket nutzen, Matt Pococks Setup nachbauen, oder Ihren eigenen Loop entwickeln — die Kernprinzipien sind identisch:
- Frische Sessions schlagen lange Sessions. Context Rot ist real. Starten Sie jede Iteration mit frischem Kontext.
- State gehoert in Dateien, nicht ins LLM. Git, JSON, Markdown — alles besser als LLM-Memory.
- Validierung vor Iteration. Kein Task gilt als erledigt ohne automatisierte Pruefung (Tests, Build, Linter).
- Sandboxing ist Pflicht. Docker, Nono.sh, oder OS-Level-Isolation. Kein autonomer Agent ohne Sandbox.
- Das Harness ist wichtiger als das Modell. Claude Opus 4.6, GPT-5, Gemini 3 — alle gut genug. Der Unterschied liegt in der Infrastruktur drumherum.
672 Stunden AI-Coding haben gezeigt: Die Zukunft der Softwareentwicklung ist nicht "KI ersetzt Entwickler". Sie ist "Entwickler die KI-Systeme orchestrieren, produzieren 10x den Output". Und dafuer braucht man keine 672 Stunden — man braucht den richtigen Loop.