Blog
AutoresearchAndrej KarpathyAgentic CodingSelbstoptimierungClaude Code SkillsPrompt EngineeringAutomatisierungKI-Agenten OptimierungBusiness Automation

Autoresearch für Business: Wenn KI-Agenten über Nacht Skills, Prompts und Landing Pages optimieren

Karpathys Autoresearch-Pattern auf ML-Training begrenzen? Ein Fehler. Das Pattern funktioniert überall wo eine messbare Metrik existiert — Cold Emails, Claude-Code-Skills, CLAUDE.md-Dateien, Website-Performance. Eine Anleitung mit konkreten Ergebnissen.

AutorGiuliano FalcoFounder, EconLab AI
Datum
Lesezeit16 min
01

Eine Formel für alles: Target + Eval + Loop

Andrej Karpathys Autoresearch (37.700+ Stars, MIT-Lizenz) hat ein Pattern etabliert, das so simpel ist, dass man es fast übersieht: Ein Agent bekommt einen editierbaren Code, eine messbare Metrik und die Anweisung: "Mach es besser. Wiederhole das für immer."

Im Original: program.md steuert den Agent → Agent editiert train.py → misst val_bpb → behält oder verwirft → repeat. Über Nacht fand der Agent Hyperparameter-Verbesserungen an einem Codebase, den Karpathy — mit zwei Jahrzehnten ML-Erfahrung — bereits gründlich von Hand optimiert hatte. Wir haben das im Detail analysiert.

Die Erkenntnis, die die meisten übersehen: Das Pattern ist nicht an ML gebunden. Die Formel funktioniert überall:

KomponenteWas sie tutBeispiel
TargetWas verändert wirdEin Prompt, eine E-Mail, eine Landing Page, ein Skill
EvalWie gemessen wirdReply-Rate, Pass-Rate, Ladezeit, Conversion
LoopWie oft wiederholt wirdJede Nacht, stündlich, auf Knopfdruck

Target + Eval + Loop = Selbstverbesserung. Diese Gleichung ist das generische Betriebssystem für autonome Optimierung — und sie ist der Grund, warum Autoresearch weit über ML hinaus relevant ist.

02

Transfer 1: Cold Emails — Von 2,4% auf messbar mehr

Nick Saraev — einer der produktivsten Claude-Code-Creator auf YouTube — hat den Transfer als Erster demonstriert. Seine Architektur für autonome Cold-Email-Optimierung:

Karpathys AutoresearchSaraevs Business-Transfer
train.py (Agent editiert)E-Mail-Copy (Agent schreibt neue Varianten)
program.md (Mensch definiert Ziel)Orchestrator-Prompt (definiert Ziel + Constraints)
val_bpb (Metrik)Reply-Rate (2,4%, 2,5%… automatisch getrackt)
5-Min-Training7-Tage-Kampagne → Ergebnis harvesten → nächste Iteration

Die Architektur: Ein Orchestrator-Agent (orchestrator.py) koordiniert Sub-Agenten — einer schreibt neue E-Mail-Varianten, einer deployed sie via Instantly-API, einer erntet die Ergebnisse. Eine resource.md speichert alle Learnings persistent. Der Loop läuft über GitHub Actions als Cron — keine menschliche Intervention nötig.

Der entscheidende Unterschied zu manuellem A/B-Testing: Der Agent lernt kumulativ. Jede Iteration baut auf den Learnings aller vorherigen auf. Nach 10 Zyklen hat er mehr Varianten getestet als ein Mensch in einem Jahr — und die Learnings sind dokumentiert, nicht in einem Slack-Thread verloren.

03

Transfer 2: Claude-Code-Skills — Von 32/40 auf 39/40

Saraevs zweites Video geht noch weiter: Autoresearch direkt auf Claude-Code-Skills anwenden. Das Mapping:

Karpathys AutoresearchSkill-Optimierung
train.pyskill.md (der Skill-Prompt)
program.mdOrchestrator-Prompt (definiert Eval-Kriterien)
val_bpbEval Pass Rate (Score aus N Testdurchläufen)

Das Problem, das er löst: Skills — also Prompts — sind inhärent noisy. Derselbe Prompt liefert bei 10 Durchläufen 10 leicht unterschiedliche Ergebnisse. Etwa 70% sind gut, 30% sind — in Saraevs Worten — "a bag of rocks". Manuelles Tuning ist Sisyphusarbeit.

Die Lösung: Binäre Eval-Suites. Für jeden Skill definiert man 5–10 Ja/Nein-Fragen. Der Agent führt den Skill N-mal aus, bewertet jedes Ergebnis gegen die Eval-Suite und berechnet einen Score. Dann mutiert er den Prompt und wiederholt.

Konkretes Ergebnis am Diagram Generator Skill:

  • Vorher: 32/40 (80% Pass Rate über 10 Durchläufe mit je 4 Kriterien)
  • Nachher: 39/40 (97,5% Pass Rate)

Und bei einem Website-Analyse-Skill:

  • Vorher: 1.100ms Ladezeit der generierten Seite
  • Nachher: 67ms — eine 16x Verbesserung, autonom gefunden

Das Faszinierendste: Die Verbesserungen sind nicht-offensichtlich. Der Agent findet Optimierungen, die ein Mensch nicht systematisch suchen würde — weil er tausende Varianten probiert, ohne müde zu werden.

04

Transfer 3–7: Alles mit einer Metrik ist optimierbar

Das Pattern skaliert auf alles, was eine messbare Metrik hat. Hier die Targets, die wir bei EconLab AI identifiziert haben:

TargetEval-MetrikLoop-FrequenzErwarteter Impact
CLAUDE.mdAgent-Output-Qualität (binäre Eval)WöchentlichBessere Agent-Steuerung, weniger Fehler
Skill-PromptsPass Rate über N DurchläufeTäglich/NachtVon ~70% auf 95%+ Zuverlässigkeit
Landing PagesConversion Rate (Webflow/Vercel Analytics)WöchentlichCTR-Verbesserung ohne Designer
Blog-SEOGoogle Search Console RankingsMonatlichKeyword-Position verbessern
Agent-KonfigurationTask-Completion-Rate, FehlerrateTäglichZuverlässigere Agent-Teams
API-PromptsResponse-Qualität (LLM-as-Judge)On-DemandBessere Endprodukt-Qualität
Code-PerformanceLatenz, Throughput, TestabdeckungNachtAutomatische Performance-Regression-Fixes

Die gemeinsame Architektur für alle diese Targets:

┌─────────────────────────────────────────────────┐
│              AUTORESEARCH LOOP                    │
│                                                   │
│   TARGET ──▶ EVAL ──▶ MUTATE ──▶ EVAL ──▶ ...   │
│     │                    │                        │
│     ▼                    ▼                        │
│   Datei/Prompt      Bessere Version?              │
│   wird editiert     → Keep / Discard              │
│                                                   │
│   Steuerung: program.md (Meta-Prompt)             │
│   Persistenz: resource.md (Learnings)             │
│   Scheduling: Cron / GitHub Actions               │
└─────────────────────────────────────────────────┘
05

Der Meta-Skill: Ein Skill der andere Skills verbessert

Saraevs eleganteste Idee: Ein Meta-Skill — ein Claude-Code-Skill, dessen einzige Aufgabe es ist, andere Skills zu verbessern. Man ruft /autoresearch skill=youtube.md runs=10 auf und der Meta-Skill:

  1. Liest den Ziel-Skill und seine Eval-Suite
  2. Führt den Skill 10-mal aus
  3. Bewertet jedes Ergebnis gegen die binären Kriterien
  4. Berechnet den Baseline-Score
  5. Mutiert den Skill-Prompt (eine Änderung pro Iteration)
  6. Führt 10 weitere Durchläufe aus
  7. Behält die Mutation wenn der Score steigt, verwirft sie sonst
  8. Wiederholt bis ein Ziel-Score erreicht ist oder N Iterationen durch sind

Das ist rekursive Selbstverbesserung auf Prompt-Ebene — nicht im AGI-Sinne, sondern im ganz praktischen: Ein Werkzeug, das andere Werkzeuge schärft.

Was das für Teams bedeutet: Statt dass ein Senior Engineer jeden Skill-Prompt manuell tuned, delegiert man das an den Meta-Skill. Der Senior definiert nur die Eval-Kriterien — was "gut" bedeutet. Die Optimierung läuft autonom.

Die Parallele zu Karpathys "Ende des Programmierens" ist direkt: Der Mensch definiert das Ziel. Der Agent findet den Weg.

06

Warum das für europäische Unternehmen besonders relevant ist

In den USA werden Autoresearch-Loops primär für Growth Hacking eingesetzt: E-Mail-Outreach, Ad-Copy, Landing-Page-Conversion. Das ist valide, aber es ist nicht der einzige — und vielleicht nicht der wichtigste — Anwendungsfall.

Für europäische Unternehmen mit regulatorischen Anforderungen gibt es einen Compliance-Hebel, den US-Companies nicht haben:

  • EU AI Act Readiness als Eval-Metrik: "Erfüllt dieser Agent-Output die Dokumentationspflichten nach Art. 11?" → Binäre Eval → Autoresearch optimiert den Agent bis er compliant ist.
  • DSGVO-Konformität als Eval: "Werden personenbezogene Daten korrekt anonymisiert?" → Automatische Prüfung → Prompt-Mutation bis 100% Pass Rate.
  • Audit-Trail-Qualität: "Ist die Entscheidungsgrundlage nachvollziehbar dokumentiert?" → Eval → Optimierung der Dokumentations-Skills.

Das Ergebnis: Compliance wird von einer manuellen Checkliste zu einem autonomen Loop. Statt einmal im Quartal zu prüfen ob die Dokumentation stimmt, prüft ein Agent jede Nacht — und verbessert sie automatisch.

Bei EconLab AI kombinieren wir diesen Ansatz mit unserer Prioritätshierarchie: Sicherheit → Ethik → Compliance → Nützlichkeit. Die Autoresearch-Loops für Compliance laufen mit höherer Priorität als die für Performance. Die Architektur spiegelt die Werte wider.

Das ist die europäische Antwort auf Autoresearch: Nicht nur optimieren was Geld bringt — sondern auch was Vertrauen schafft.

Weiter lesen: Autoresearch Code Deep Dive (630 Zeilen) · Karpathys Ende des Programmierens · Context Engineering · Der Ralph Loop

EconLab AI baut Autoresearch-Loops für Compliance und Performance. Die Formel ist immer dieselbe — Target + Eval + Loop. Was sich ändert, ist die Metrik. Gespräch vereinbaren | Beratung

Über den Autor

Giuliano Falco

Founder, EconLab AI

7 Jahre Wirtschaftsprüfung und IT-Audit. Jetzt baut er mit Agentic Coding die nächste Generation von Audit- und Enterprise-Software.

Bereit für den nächsten Schritt?

Wir beraten zu KI-Strategie, EU AI Act und Agentic Coding.

Gespräch vereinbaren