Autoresearch für Business: Wenn KI-Agenten über Nacht Skills, Prompts und Landing Pages optimieren
Karpathys Autoresearch-Pattern auf ML-Training begrenzen? Ein Fehler. Das Pattern funktioniert überall wo eine messbare Metrik existiert — Cold Emails, Claude-Code-Skills, CLAUDE.md-Dateien, Website-Performance. Eine Anleitung mit konkreten Ergebnissen.
Eine Formel für alles: Target + Eval + Loop
Andrej Karpathys Autoresearch (37.700+ Stars, MIT-Lizenz) hat ein Pattern etabliert, das so simpel ist, dass man es fast übersieht: Ein Agent bekommt einen editierbaren Code, eine messbare Metrik und die Anweisung: "Mach es besser. Wiederhole das für immer."
Im Original: program.md steuert den Agent → Agent editiert train.py → misst val_bpb → behält oder verwirft → repeat. Über Nacht fand der Agent Hyperparameter-Verbesserungen an einem Codebase, den Karpathy — mit zwei Jahrzehnten ML-Erfahrung — bereits gründlich von Hand optimiert hatte. Wir haben das im Detail analysiert.
Die Erkenntnis, die die meisten übersehen: Das Pattern ist nicht an ML gebunden. Die Formel funktioniert überall:
| Komponente | Was sie tut | Beispiel |
|---|---|---|
| Target | Was verändert wird | Ein Prompt, eine E-Mail, eine Landing Page, ein Skill |
| Eval | Wie gemessen wird | Reply-Rate, Pass-Rate, Ladezeit, Conversion |
| Loop | Wie oft wiederholt wird | Jede Nacht, stündlich, auf Knopfdruck |
Target + Eval + Loop = Selbstverbesserung. Diese Gleichung ist das generische Betriebssystem für autonome Optimierung — und sie ist der Grund, warum Autoresearch weit über ML hinaus relevant ist.
Transfer 1: Cold Emails — Von 2,4% auf messbar mehr
Nick Saraev — einer der produktivsten Claude-Code-Creator auf YouTube — hat den Transfer als Erster demonstriert. Seine Architektur für autonome Cold-Email-Optimierung:
| Karpathys Autoresearch | Saraevs Business-Transfer |
|---|---|
train.py (Agent editiert) | E-Mail-Copy (Agent schreibt neue Varianten) |
program.md (Mensch definiert Ziel) | Orchestrator-Prompt (definiert Ziel + Constraints) |
val_bpb (Metrik) | Reply-Rate (2,4%, 2,5%… automatisch getrackt) |
| 5-Min-Training | 7-Tage-Kampagne → Ergebnis harvesten → nächste Iteration |
Die Architektur: Ein Orchestrator-Agent (orchestrator.py) koordiniert Sub-Agenten — einer schreibt neue E-Mail-Varianten, einer deployed sie via Instantly-API, einer erntet die Ergebnisse. Eine resource.md speichert alle Learnings persistent. Der Loop läuft über GitHub Actions als Cron — keine menschliche Intervention nötig.
Der entscheidende Unterschied zu manuellem A/B-Testing: Der Agent lernt kumulativ. Jede Iteration baut auf den Learnings aller vorherigen auf. Nach 10 Zyklen hat er mehr Varianten getestet als ein Mensch in einem Jahr — und die Learnings sind dokumentiert, nicht in einem Slack-Thread verloren.
Transfer 2: Claude-Code-Skills — Von 32/40 auf 39/40
Saraevs zweites Video geht noch weiter: Autoresearch direkt auf Claude-Code-Skills anwenden. Das Mapping:
| Karpathys Autoresearch | Skill-Optimierung |
|---|---|
train.py | skill.md (der Skill-Prompt) |
program.md | Orchestrator-Prompt (definiert Eval-Kriterien) |
val_bpb | Eval Pass Rate (Score aus N Testdurchläufen) |
Das Problem, das er löst: Skills — also Prompts — sind inhärent noisy. Derselbe Prompt liefert bei 10 Durchläufen 10 leicht unterschiedliche Ergebnisse. Etwa 70% sind gut, 30% sind — in Saraevs Worten — "a bag of rocks". Manuelles Tuning ist Sisyphusarbeit.
Die Lösung: Binäre Eval-Suites. Für jeden Skill definiert man 5–10 Ja/Nein-Fragen. Der Agent führt den Skill N-mal aus, bewertet jedes Ergebnis gegen die Eval-Suite und berechnet einen Score. Dann mutiert er den Prompt und wiederholt.
Konkretes Ergebnis am Diagram Generator Skill:
- Vorher: 32/40 (80% Pass Rate über 10 Durchläufe mit je 4 Kriterien)
- Nachher: 39/40 (97,5% Pass Rate)
Und bei einem Website-Analyse-Skill:
- Vorher: 1.100ms Ladezeit der generierten Seite
- Nachher: 67ms — eine 16x Verbesserung, autonom gefunden
Das Faszinierendste: Die Verbesserungen sind nicht-offensichtlich. Der Agent findet Optimierungen, die ein Mensch nicht systematisch suchen würde — weil er tausende Varianten probiert, ohne müde zu werden.
Transfer 3–7: Alles mit einer Metrik ist optimierbar
Das Pattern skaliert auf alles, was eine messbare Metrik hat. Hier die Targets, die wir bei EconLab AI identifiziert haben:
| Target | Eval-Metrik | Loop-Frequenz | Erwarteter Impact |
|---|---|---|---|
| CLAUDE.md | Agent-Output-Qualität (binäre Eval) | Wöchentlich | Bessere Agent-Steuerung, weniger Fehler |
| Skill-Prompts | Pass Rate über N Durchläufe | Täglich/Nacht | Von ~70% auf 95%+ Zuverlässigkeit |
| Landing Pages | Conversion Rate (Webflow/Vercel Analytics) | Wöchentlich | CTR-Verbesserung ohne Designer |
| Blog-SEO | Google Search Console Rankings | Monatlich | Keyword-Position verbessern |
| Agent-Konfiguration | Task-Completion-Rate, Fehlerrate | Täglich | Zuverlässigere Agent-Teams |
| API-Prompts | Response-Qualität (LLM-as-Judge) | On-Demand | Bessere Endprodukt-Qualität |
| Code-Performance | Latenz, Throughput, Testabdeckung | Nacht | Automatische Performance-Regression-Fixes |
Die gemeinsame Architektur für alle diese Targets:
┌─────────────────────────────────────────────────┐
│ AUTORESEARCH LOOP │
│ │
│ TARGET ──▶ EVAL ──▶ MUTATE ──▶ EVAL ──▶ ... │
│ │ │ │
│ ▼ ▼ │
│ Datei/Prompt Bessere Version? │
│ wird editiert → Keep / Discard │
│ │
│ Steuerung: program.md (Meta-Prompt) │
│ Persistenz: resource.md (Learnings) │
│ Scheduling: Cron / GitHub Actions │
└─────────────────────────────────────────────────┘Der Meta-Skill: Ein Skill der andere Skills verbessert
Saraevs eleganteste Idee: Ein Meta-Skill — ein Claude-Code-Skill, dessen einzige Aufgabe es ist, andere Skills zu verbessern. Man ruft /autoresearch skill=youtube.md runs=10 auf und der Meta-Skill:
- Liest den Ziel-Skill und seine Eval-Suite
- Führt den Skill 10-mal aus
- Bewertet jedes Ergebnis gegen die binären Kriterien
- Berechnet den Baseline-Score
- Mutiert den Skill-Prompt (eine Änderung pro Iteration)
- Führt 10 weitere Durchläufe aus
- Behält die Mutation wenn der Score steigt, verwirft sie sonst
- Wiederholt bis ein Ziel-Score erreicht ist oder N Iterationen durch sind
Das ist rekursive Selbstverbesserung auf Prompt-Ebene — nicht im AGI-Sinne, sondern im ganz praktischen: Ein Werkzeug, das andere Werkzeuge schärft.
Was das für Teams bedeutet: Statt dass ein Senior Engineer jeden Skill-Prompt manuell tuned, delegiert man das an den Meta-Skill. Der Senior definiert nur die Eval-Kriterien — was "gut" bedeutet. Die Optimierung läuft autonom.
Die Parallele zu Karpathys "Ende des Programmierens" ist direkt: Der Mensch definiert das Ziel. Der Agent findet den Weg.
Warum das für europäische Unternehmen besonders relevant ist
In den USA werden Autoresearch-Loops primär für Growth Hacking eingesetzt: E-Mail-Outreach, Ad-Copy, Landing-Page-Conversion. Das ist valide, aber es ist nicht der einzige — und vielleicht nicht der wichtigste — Anwendungsfall.
Für europäische Unternehmen mit regulatorischen Anforderungen gibt es einen Compliance-Hebel, den US-Companies nicht haben:
- EU AI Act Readiness als Eval-Metrik: "Erfüllt dieser Agent-Output die Dokumentationspflichten nach Art. 11?" → Binäre Eval → Autoresearch optimiert den Agent bis er compliant ist.
- DSGVO-Konformität als Eval: "Werden personenbezogene Daten korrekt anonymisiert?" → Automatische Prüfung → Prompt-Mutation bis 100% Pass Rate.
- Audit-Trail-Qualität: "Ist die Entscheidungsgrundlage nachvollziehbar dokumentiert?" → Eval → Optimierung der Dokumentations-Skills.
Das Ergebnis: Compliance wird von einer manuellen Checkliste zu einem autonomen Loop. Statt einmal im Quartal zu prüfen ob die Dokumentation stimmt, prüft ein Agent jede Nacht — und verbessert sie automatisch.
Bei EconLab AI kombinieren wir diesen Ansatz mit unserer Prioritätshierarchie: Sicherheit → Ethik → Compliance → Nützlichkeit. Die Autoresearch-Loops für Compliance laufen mit höherer Priorität als die für Performance. Die Architektur spiegelt die Werte wider.
Das ist die europäische Antwort auf Autoresearch: Nicht nur optimieren was Geld bringt — sondern auch was Vertrauen schafft.
Weiter lesen: Autoresearch Code Deep Dive (630 Zeilen) · Karpathys Ende des Programmierens · Context Engineering · Der Ralph Loop
EconLab AI baut Autoresearch-Loops für Compliance und Performance. Die Formel ist immer dieselbe — Target + Eval + Loop. Was sich ändert, ist die Metrik. Gespräch vereinbaren | Beratung