AutoresearchAndrej KarpathyAgentic CodingSelbstoptimierungClaude Code SkillsPrompt EngineeringAutomatisierungKI-Agenten OptimierungBusiness Automation

Autoresearch für Business: Wenn KI-Agenten über Nacht Skills, Prompts und Landing Pages optimieren

Karpathys Autoresearch-Pattern auf ML-Training begrenzen? Ein Fehler. Das Pattern funktioniert überall wo eine messbare Metrik existiert — Cold Emails, Claude-Code-Skills, CLAUDE.md-Dateien, Website-Performance. Eine Anleitung mit konkreten Ergebnissen.

AutorGiuliano FalcoFounder, EconLab AI

Datum30. März 2026

Lesezeit16 min

Eine Formel für alles: Target + Eval + Loop

Andrej Karpathys Autoresearch (37.700+ Stars, MIT-Lizenz) hat ein Pattern etabliert, das so simpel ist, dass man es fast übersieht: Ein Agent bekommt einen editierbaren Code, eine messbare Metrik und die Anweisung: "Mach es besser. Wiederhole das für immer."

Im Original: program.md steuert den Agent → Agent editiert train.py → misst val_bpb → behält oder verwirft → repeat. Über Nacht fand der Agent Hyperparameter-Verbesserungen an einem Codebase, den Karpathy — mit zwei Jahrzehnten ML-Erfahrung — bereits gründlich von Hand optimiert hatte. Wir haben das im Detail analysiert.

Die Erkenntnis, die die meisten übersehen: Das Pattern ist nicht an ML gebunden. Die Formel funktioniert überall:

Komponente	Was sie tut	Beispiel
Target	Was verändert wird	Ein Prompt, eine E-Mail, eine Landing Page, ein Skill
Eval	Wie gemessen wird	Reply-Rate, Pass-Rate, Ladezeit, Conversion
Loop	Wie oft wiederholt wird	Jede Nacht, stündlich, auf Knopfdruck

Target + Eval + Loop = Selbstverbesserung. Diese Gleichung ist das generische Betriebssystem für autonome Optimierung — und sie ist der Grund, warum Autoresearch weit über ML hinaus relevant ist.

Transfer 1: Cold Emails — Von 2,4% auf messbar mehr

Nick Saraev — einer der produktivsten Claude-Code-Creator auf YouTube — hat den Transfer als Erster demonstriert. Seine Architektur für autonome Cold-Email-Optimierung:

Karpathys Autoresearch	Saraevs Business-Transfer
`train.py` (Agent editiert)	E-Mail-Copy (Agent schreibt neue Varianten)
`program.md` (Mensch definiert Ziel)	Orchestrator-Prompt (definiert Ziel + Constraints)
`val_bpb` (Metrik)	Reply-Rate (2,4%, 2,5%… automatisch getrackt)
5-Min-Training	7-Tage-Kampagne → Ergebnis harvesten → nächste Iteration

Die Architektur: Ein Orchestrator-Agent (orchestrator.py) koordiniert Sub-Agenten — einer schreibt neue E-Mail-Varianten, einer deployed sie via Instantly-API, einer erntet die Ergebnisse. Eine resource.md speichert alle Learnings persistent. Der Loop läuft über GitHub Actions als Cron — keine menschliche Intervention nötig.

Der entscheidende Unterschied zu manuellem A/B-Testing: Der Agent lernt kumulativ. Jede Iteration baut auf den Learnings aller vorherigen auf. Nach 10 Zyklen hat er mehr Varianten getestet als ein Mensch in einem Jahr — und die Learnings sind dokumentiert, nicht in einem Slack-Thread verloren.

Transfer 2: Claude-Code-Skills — Von 32/40 auf 39/40

Saraevs zweites Video geht noch weiter: Autoresearch direkt auf Claude-Code-Skills anwenden. Das Mapping:

Karpathys Autoresearch	Skill-Optimierung
`train.py`	`skill.md` (der Skill-Prompt)
`program.md`	Orchestrator-Prompt (definiert Eval-Kriterien)
`val_bpb`	Eval Pass Rate (Score aus N Testdurchläufen)

Das Problem, das er löst: Skills — also Prompts — sind inhärent noisy. Derselbe Prompt liefert bei 10 Durchläufen 10 leicht unterschiedliche Ergebnisse. Etwa 70% sind gut, 30% sind — in Saraevs Worten — "a bag of rocks". Manuelles Tuning ist Sisyphusarbeit.

Die Lösung: Binäre Eval-Suites. Für jeden Skill definiert man 5–10 Ja/Nein-Fragen. Der Agent führt den Skill N-mal aus, bewertet jedes Ergebnis gegen die Eval-Suite und berechnet einen Score. Dann mutiert er den Prompt und wiederholt.

Konkretes Ergebnis am Diagram Generator Skill:

Vorher: 32/40 (80% Pass Rate über 10 Durchläufe mit je 4 Kriterien)
Nachher: 39/40 (97,5% Pass Rate)

Und bei einem Website-Analyse-Skill:

Vorher: 1.100ms Ladezeit der generierten Seite
Nachher: 67ms — eine 16x Verbesserung, autonom gefunden

Das Faszinierendste: Die Verbesserungen sind nicht-offensichtlich. Der Agent findet Optimierungen, die ein Mensch nicht systematisch suchen würde — weil er tausende Varianten probiert, ohne müde zu werden.

Transfer 3–7: Alles mit einer Metrik ist optimierbar

Das Pattern skaliert auf alles, was eine messbare Metrik hat. Hier die Targets, die wir bei EconLab AI identifiziert haben:

Target	Eval-Metrik	Loop-Frequenz	Erwarteter Impact
CLAUDE.md	Agent-Output-Qualität (binäre Eval)	Wöchentlich	Bessere Agent-Steuerung, weniger Fehler
Skill-Prompts	Pass Rate über N Durchläufe	Täglich/Nacht	Von ~70% auf 95%+ Zuverlässigkeit
Landing Pages	Conversion Rate (Webflow/Vercel Analytics)	Wöchentlich	CTR-Verbesserung ohne Designer
Blog-SEO	Google Search Console Rankings	Monatlich	Keyword-Position verbessern
Agent-Konfiguration	Task-Completion-Rate, Fehlerrate	Täglich	Zuverlässigere Agent-Teams
API-Prompts	Response-Qualität (LLM-as-Judge)	On-Demand	Bessere Endprodukt-Qualität
Code-Performance	Latenz, Throughput, Testabdeckung	Nacht	Automatische Performance-Regression-Fixes

Die gemeinsame Architektur für alle diese Targets:

┌─────────────────────────────────────────────────┐
│              AUTORESEARCH LOOP                    │
│                                                   │
│   TARGET ──▶ EVAL ──▶ MUTATE ──▶ EVAL ──▶ ...   │
│     │                    │                        │
│     ▼                    ▼                        │
│   Datei/Prompt      Bessere Version?              │
│   wird editiert     → Keep / Discard              │
│                                                   │
│   Steuerung: program.md (Meta-Prompt)             │
│   Persistenz: resource.md (Learnings)             │
│   Scheduling: Cron / GitHub Actions               │
└─────────────────────────────────────────────────┘

Der Meta-Skill: Ein Skill der andere Skills verbessert

Saraevs eleganteste Idee: Ein Meta-Skill — ein Claude-Code-Skill, dessen einzige Aufgabe es ist, andere Skills zu verbessern. Man ruft /autoresearch skill=youtube.md runs=10 auf und der Meta-Skill:

Liest den Ziel-Skill und seine Eval-Suite
Führt den Skill 10-mal aus
Bewertet jedes Ergebnis gegen die binären Kriterien
Berechnet den Baseline-Score
Mutiert den Skill-Prompt (eine Änderung pro Iteration)
Führt 10 weitere Durchläufe aus
Behält die Mutation wenn der Score steigt, verwirft sie sonst
Wiederholt bis ein Ziel-Score erreicht ist oder N Iterationen durch sind

Das ist rekursive Selbstverbesserung auf Prompt-Ebene — nicht im AGI-Sinne, sondern im ganz praktischen: Ein Werkzeug, das andere Werkzeuge schärft.

Was das für Teams bedeutet: Statt dass ein Senior Engineer jeden Skill-Prompt manuell tuned, delegiert man das an den Meta-Skill. Der Senior definiert nur die Eval-Kriterien — was "gut" bedeutet. Die Optimierung läuft autonom.

Die Parallele zu Karpathys "Ende des Programmierens" ist direkt: Der Mensch definiert das Ziel. Der Agent findet den Weg.

Warum das für europäische Unternehmen besonders relevant ist

In den USA werden Autoresearch-Loops primär für Growth Hacking eingesetzt: E-Mail-Outreach, Ad-Copy, Landing-Page-Conversion. Das ist valide, aber es ist nicht der einzige — und vielleicht nicht der wichtigste — Anwendungsfall.

Für europäische Unternehmen mit regulatorischen Anforderungen gibt es einen Compliance-Hebel, den US-Companies nicht haben:

EU AI Act Readiness als Eval-Metrik: "Erfüllt dieser Agent-Output die Dokumentationspflichten nach Art. 11?" → Binäre Eval → Autoresearch optimiert den Agent bis er compliant ist.
DSGVO-Konformität als Eval: "Werden personenbezogene Daten korrekt anonymisiert?" → Automatische Prüfung → Prompt-Mutation bis 100% Pass Rate.
Audit-Trail-Qualität: "Ist die Entscheidungsgrundlage nachvollziehbar dokumentiert?" → Eval → Optimierung der Dokumentations-Skills.

Das Ergebnis: Compliance wird von einer manuellen Checkliste zu einem autonomen Loop. Statt einmal im Quartal zu prüfen ob die Dokumentation stimmt, prüft ein Agent jede Nacht — und verbessert sie automatisch.

Bei EconLab AI kombinieren wir diesen Ansatz mit unserer Prioritätshierarchie: Sicherheit → Ethik → Compliance → Nützlichkeit. Die Autoresearch-Loops für Compliance laufen mit höherer Priorität als die für Performance. Die Architektur spiegelt die Werte wider.

Das ist die europäische Antwort auf Autoresearch: Nicht nur optimieren was Geld bringt — sondern auch was Vertrauen schafft.

Weiter lesen: Autoresearch Code Deep Dive (630 Zeilen) · Karpathys Ende des Programmierens · Context Engineering · Der Ralph Loop

EconLab AI baut Autoresearch-Loops für Compliance und Performance. Die Formel ist immer dieselbe — Target + Eval + Loop. Was sich ändert, ist die Metrik. Gespräch vereinbaren | Beratung