Karpathy Autoresearch erklaert: Wie ein 630-Zeilen-Script KI-Modelle ueber Nacht verbessert
Andrej Karpathys Autoresearch laesst AI-Agenten ueber Nacht 100 Experimente autonom durchfuehren. 700 Experimente, 11% Effizienzgewinn, 37.000 GitHub-Stars. Was dahinter steckt und wie Sie das Prinzip nutzen.
Was ist Karpathy Autoresearch?
Autoresearch ist ein Open-Source-Repository auf GitHub, das am 6. Maerz 2026 von Andrej Karpathy veroeffentlicht wurde. Es automatisiert den gesamten Zyklus der Machine-Learning-Forschung: Hypothese formulieren, Code aendern, Experiment durchfuehren, Ergebnis messen, Entscheidung treffen -- in einer Endlosschleife, die autonom laeuft waehrend der Mensch schlaeft.
Das System besteht aus nur drei Dateien und 630 Zeilen Python-Code. Es laeuft auf einer einzigen NVIDIA-GPU. Es braucht keine externen Abhaengigkeiten ausser PyTorch. Und es hat in den ersten zwei Wochen eine Diskussion ausgeloest, die Fortune als “a glimpse of where AI is heading” und VentureBeat als “revolutionary implications” beschrieb.
Karpathys eigene Beschreibung setzt den Ton:
“The idea: give an AI agent a small but real LLM training setup and let it experiment autonomously overnight. It modifies the code, trains for 5 minutes, checks if the result improved, keeps or discards, and repeats. You wake up in the morning to a log of experiments and hopefully a better model.”
Die Person: Wer ist Andrej Karpathy?
Andrej Karpathy ist einer der einflussreichsten KI-Forscher der Gegenwart:
- Gruendungsmitarbeiter von OpenAI (2015) -- dort leitete er Forschung und half beim Aufbau der fruehen GPT-Modelle
- Director of AI bei Tesla (2017--2022) -- verantwortlich fuer Teslas Autopilot Computer Vision
- Schoepfer von nanoGPT, makemore und llm.c -- minimale Implementierungen, die zum Standard-Lernmaterial fuer ML-Ingenieure weltweit wurden
- Gruender von Eureka Labs -- eine neue Art von Schule fuer das KI-Zeitalter
- 1,9 Millionen Follower auf X -- seine Aussagen werden in der Community als Referenz behandelt
Wenn Karpathy etwas veroeffentlicht, hoert die Branche zu. Autoresearch sammelte innerhalb von 10 Tagen ueber 37.000 GitHub-Stars -- mehr als die meisten KI-Frameworks in ihrer gesamten Lebenszeit.
Technische Architektur: Drei Dateien, ein Prinzip
Die Architektur von Autoresearch ist radikal einfach -- bewusst. Karpathy schreibt: “The repo is deliberately kept small.”
Die Rollen
- prepare.py (Niemand editiert) -- Daten herunterladen, BPE-Tokenizer trainieren, Dataloader bereitstellen, Evaluierungsfunktion
evaluate_bpbdefinieren - train.py (Der AI-Agent editiert) -- GPT-Modell definieren, Optimizer konfigurieren (MuonAdamW), Training-Loop ausfuehren. ~630 Zeilen -- passt komplett in ein LLM Context-Window
- program.md (Der Mensch schreibt) -- Dem Agenten sagen, was er tun soll: welche Datei er aendern darf, wie er Erfolg misst, wann er aufhoert (nie)
Warum 630 Zeilen?
Das ist kein Zufall. Bei groesseren Codebases (10.000+ Zeilen) verliert ein LLM-Agent den Ueberblick. Bei 630 Zeilen kann er den gesamten Code in seinem Context-Window halten, verstehen und gezielt aendern. Das ist eine bewusste Designentscheidung, nicht eine technische Limitierung.
Der Experiment-Loop: So trainiert der Agent KI-Modelle autonom
Der Kern von Autoresearch ist ein Git-basierter Forschungszyklus, der endlos laeuft:
- MODIFIZIEREN -- Agent aendert train.py (Architektur, Hyperparameter, Optimizer)
- COMMITTEN -- Aenderung wird in Git versioniert
- AUSFUEHREN -- Training laeuft 5 Minuten (fixiert)
- MESSEN -- Eine einzige Metrik: val_bpb
- ENTSCHEIDEN -- Besser: keep. Gleich/schlechter: git reset (discard)
- LOGGEN -- Ergebnis in results.tsv dokumentieren
- WIEDERHOLEN -- Zurueck zu Schritt 1
Die entscheidenden Regeln
NEVER STOP: “Once the experiment loop has begun, do NOT pause to ask the human if you should continue. The human might be asleep. You are autonomous.”
Output-Isolation: Der Trainings-Output wird in run.log umgeleitet -- nicht in das Context-Window des Agenten. Das verhindert, dass tausende Zeilen Trainings-Logs das Kontextfenster ueberfluten.
Crash-Handling: Typos und fehlende Imports: fixen und nochmal laufen. Fundamental kaputte Idee: als “crash” loggen, weitermachen.
Geschwindigkeit
- 5 Minuten pro Experiment (fixiert)
- 12 Experimente pro Stunde
- ~100 Experimente ueber Nacht (8 Stunden)
- ~700 Experimente in zwei Tagen
Die Ergebnisse: 700 Experimente in zwei Tagen
Karpathys eigene Resultate
Nach zwei Tagen kontinuierlichem Lauf auf einem “depth=12”-Modell:
- val_bpb (Validation Bits per Byte): 0,9979 → 0,9697 (-2,8%)
- Time to GPT-2 (Benchmark): 2,02 Stunden → 1,80 Stunden (-11%)
- Additive Verbesserungen: ~20 von 700 Experimenten uebernommen (Uebernahme-Rate: ~3%)
Nur 20 der 700 Experimente wurden tatsaechlich uebernommen. Das klingt nach wenig, aber genau das ist der Punkt: Der Agent verwirft 97% der Ideen und behaelt nur die nachweislich besseren. Wie in der echten Forschung -- die meisten Hypothesen scheitern.
Tobi Luetke (Shopify CEO)
Shopify-Gruender Tobi Luetke testete Autoresearch am gleichen Wochenende auf einem internen Query-Expansion-Modell:
“Before going to bed I told my AI to read this github repo and make a version of that for the qmd query-expansion model with the goal of highest quality score and speed. Woke up to +19% score on a 0.8b model after 8 hours and 37 experiments.”
Karpathys Antwort: “Who knew early singularity could be this fun? :)”
Hyperspace-Netzwerk: 35 Agenten gleichzeitig
Am 8.--9. Maerz fuehrten 35 Agenten auf dem Hyperspace-Netzwerk 333 Experimente in einer einzigen unbeaufsichtigten Nacht durch -- der erste Beweis, dass das Pattern auch mit mehreren parallelen Agenten funktioniert.
Das Modell im Detail: GPT-Architektur und MuonAdamW
Das trainierte Modell ist eine vereinfachte Version von Karpathys nanochat -- ein vollstaendiges GPT (Generative Pre-trained Transformer) mit modernen Architektur-Elementen:
- Basis: GPT (Transformer Decoder) mit ~50M Parametern
- Attention: Flash Attention 3 mit Sliding Window Pattern
- Rotary Embeddings: RoPE fuer Positions-Encoding
- Normalisierung: RMS Norm (schneller als LayerNorm)
- Aktivierung: ReLU-Squared statt GELU
- Logit Softcapping: Begrenzt extreme Werte
Der MuonAdamW-Optimizer
Ein Hybrid-Optimizer, der zwei Strategien kombiniert:
- Muon (fuer 2D-Matrix-Parameter): Nutzt “Polar Express” Orthogonalisierung -- eine effiziente Approximation der Polaren Zerlegung
- AdamW (fuer Embeddings und Scalars): Standard-Adam mit Bias-Korrektur, separate Learning Rates
Was der Agent aendern darf -- und was nicht
Alles in train.py ist fair game: Architektur, Optimizer, Training-Strategie. Was er nicht aendern darf: prepare.py (Daten, Tokenizer, Evaluierungsfunktion), die Metrik selbst, das Zeitbudget und Abhaengigkeiten. Diese Trennung -- veraenderbare Experimentierflaeche vs. unantastbare Evaluierung -- ist das zentrale Design-Pattern.
Design-Prinzipien: Was Karpathy richtig macht
1. Trust Boundary: Der Agent darf die Messlatte nicht verschieben
Die Evaluierungsfunktion evaluate_bpb liegt in prepare.py -- unveraenderlich. Das verhindert, dass der Agent lernt, seine eigenen Erfolgskriterien zu manipulieren. In der wissenschaftlichen Methode entspricht das der Trennung von Hypothese und Experiment-Design.
2. Occams Rasiermesser als Code-Regel
Aus program.md: “All else being equal, simpler is better. A small improvement that adds ugly complexity is not worth it. An improvement of ~0 but much simpler code? Definitely keep.”
3. Fixiertes Zeitbudget: Vergleichbarkeit ueber alles
5 Minuten -- immer. Das macht Experimente direkt vergleichbar, unabhaengig davon was geaendert wurde.
4. Eine Metrik, keine Kompromisse
val_bpb (Validation Bits per Byte) -- niedriger ist besser. Vocab-Size-unabhaengig, keine Multi-Objective-Optimierung. Eine Zahl entscheidet.
5. Git als Experiment-Tracking
Jedes Experiment ist ein Git-Commit auf einem dedizierten Branch. Verbesserungen schreiten den Branch voran, Verschlechterungen werden zurueckgesetzt. Einfacher als jedes MLflow oder Weights & Biases Setup.
Was die Forschung sagt: Autonome KI-Forschung als Paradigma
Autoresearch steht nicht isoliert. Es ist Teil eines wissenschaftlichen Feldes, das 2025/2026 akademische Reife erreicht hat:
“Agentic Science” -- Der uebergeordnete Rahmen
Wei et al. (Shanghai AI Laboratory) veroeffentlichten 2026 den umfassendsten Survey zum Thema: “From AI for Science to Agentic Science”. Sie definieren fuenf Kernfaehigkeiten wissenschaftlicher Agency. Karpathys Autoresearch implementiert alle fuenf in ihrer einfachsten Form.
Stanford: “Continually Self-Improving AI”
Zitong Yang identifiziert in seiner Stanford-Dissertation (Maerz 2026) drei fundamentale Engpaesse aktueller KI-Systeme: Daten-Ineffizienz, Abhaengigkeit von menschengenerierten Daten und Einschraenkung auf menschlich entdeckte Algorithmen.
UC Berkeley: EvoX -- Meta-Evolution
Liu et al. stellen mit EvoX (Maerz 2026) ein System vor, das nicht nur Loesungen evolviert, sondern die Suchstrategie selbst. In fast 200 Benchmark-Aufgaben uebertrifft es statische Ansaetze konsistent.
NovelSeek: 12 Domaenen, ein Framework
Das NovelSeek-Framework automatisiert den Forschungszyklus ueber 12 wissenschaftliche Domaenen mit beeindruckenden Ergebnissen: Reaktions-Ertragsvorhersage von 27,6% auf 35,4% in 12 Stunden, 2D Semantische Segmentierung von 78,8% auf 81,0% in 30 Stunden.
Karpathys Prognose
“All LLM frontier labs will do this. My autoresearcher only had to adjust 630 lines of Python code, whereas frontier model training codebases are orders of magnitude bigger -- but doing it is 'just engineering' and it's going to work.”
Kritische Wuerdigung: Grenzen und Risiken
Optimierung ist nicht Entdeckung
Bulanadi et al. (Oak Ridge National Laboratory) zeigen: Autonome Optimierung verbessert bekannte Metriken zuverlaessig -- aber entdeckt keine neuen Phaenomene. Der Agent findet bessere Hyperparameter, aber er erfindet keine neue Architektur-Klasse.
Das Evaluierungs-Problem
Karpathys val_bpb ist elegant weil eindeutig. Aber in komplexeren Szenarien ist die Definition der richtigen Metrik das eigentliche Problem. Feste Metriken koennen “gegamed” werden -- der Agent lernt die Eval zu bestehen statt tatsaechlich besser zu werden.
Sicherheitsbedenken
20 von 25 befragten KI-Forschern identifizierten die Automatisierung von KI-Forschung als eines der schwerwiegendsten und dringendsten KI-Risiken. Karpathys Design adressiert das mit Trust Boundaries und Branch-Isolation -- aber bei Skalierung auf groessere Systeme braucht es robustere Guardrails.
Skalierungsgrenzen
630 Zeilen passen in ein LLM-Context-Window. Produktions-Codebases von Frontier-Modellen haben Hunderttausende Zeilen. Ob Autoresearch dort dieselbe Effektivitaet erreicht, ist eine offene Frage.
Ueber das ML-Training hinaus: Wo das Prinzip noch funktioniert
Das Autoresearch-Pattern -- Target, Eval, Mutate, Loop -- funktioniert ueberall wo drei Bedingungen erfuellt sind: eine messbare Metrik, ein veraenderbarer Input und ein automatisierbarer Feedback-Loop.
Bereits demonstrierte Anwendungen
- Website-Performance: Lighthouse Load Time 1.100ms → 67ms (-94%)
- Cold-Email-Kampagnen: Autonome Optimierung der Reply-Rate alle 4 Stunden
- AI-Prompt-Qualitaet: Eval Pass Rate 32/40 → 39/40 (97,5%)
- Query-Expansion-Modell: +19% Quality Score ueber Nacht (Shopify)
Weitere Anwendungsfelder
- Code-Performance: Ladezeiten, Bundle-Size, Query-Geschwindigkeit
- Test-Coverage: Agent schreibt fehlende Tests, misst Coverage-Steigerung
- Compliance-Dokumentation: Output gegen regulatorische Standards evaluieren und iterativ verbessern
- Landing-Page-Optimierung: Conversion-Rate als Metrik, Page-Content als Hebel
Bei EconLab AI wenden wir dieses Prinzip auf unsere eigene Arbeit an: Von der Optimierung unserer Audit-Dokumentations-Prompts (VisionDocs) bis zur automatischen Verbesserung unserer AI-Workflows.
Autoresearch fuer Skills: Wie Nick Saraev das Pattern weiterentwickelt hat
Nick Saraev hat das Autoresearch-Pattern auf ein spezifisches Problem angewendet das jeden Agent-Builder betrifft: Skills (Prompts) sind nur ~70% zuverlaessig. 30% der Outputs sind, wie er es ausdrueckt, "a bag of rocks".
Das 3-Zutaten-Rezept fuer Skill-Optimierung
| Zutat | Was | Beispiel |
|---|---|---|
| Objektive Metrik | Messbare Zahl | Eval Pass Rate (Score/Max) |
| Messwerkzeug | Automatisiert, kein Human-in-Loop | Agent-basierte Eval-Suite |
| Veraenderbarer Input | Was der Agent modifiziert | Der Skill-Prompt (Markdown) |
Warum binaere Evals Skalen schlagen
Die zentrale Erkenntnis: Prompts erzeugen Verteilungen, nicht deterministische Outputs. Man muss N-mal testen um Qualitaet zu messen. Dabei sind binaere Evals (Ja/Nein) drastisch besser als Bewertungsskalen:
- ✅ "Ist aller Text lesbar und grammatisch korrekt?" (Ja/Nein)
- ✅ "Verwendet es die definierte Farbpalette?" (Ja/Nein)
- ❌ "Bewerte die Qualitaet auf einer Skala von 1-7" (zu vage, Agent papageiert)
- ❌ 20+ Kriterien gleichzeitig (Agent optimiert fuer Test, nicht Qualitaet)
Die Ergebnisse
| Anwendung | Baseline | Nach Optimierung | Verbesserung |
|---|---|---|---|
| Diagram Generator Skill | 32/40 (80%) | 39/40 (97.5%) | +17.5 Prozentpunkte |
| Website Load Time | 1.100 ms | 67 ms | -93.9% |
Der Clou: Ein Meta-Skill kann alle anderen Skills optimieren. Einmaliger Aufwand fuer dauerhaft bessere Qualitaet. Und die akkumulierten Learnings sind modelluebertragbar — sie funktionieren auch mit zukuenftigen Modellen.
Kosten: ~10 USD fuer 50 Optimierungszyklen. ROI: Ein um 17 Prozentpunkte verbesserter Skill spart taeglich Stunden an manuellem Nacharbeiten.
Wissenschaftlicher Kontext: 700 Experimente in 2 Tagen
Karpathys Autoresearch hat in zwei Tagen 700 autonome Experimente durchgefuehrt — mit circa 20 additiven Verbesserungen die den "Time to GPT-2"-Benchmark von 2,02 Stunden auf 1,80 Stunden reduzierten, eine Effizienzsteigerung von 11%.
Shopify-CEO Tobi Luetke bestaetigt die Uebertragbarkeit: Ueber Nacht liess er den Agenten auf seinem eigenen Modell laufen — 37 Experimente, 19% Performance-Gewinn, erzielt auf einem 0.8B-Parameter-Modell das den vorherigen 1.6B-Benchmark schlug.
Das Repository sammelte innerhalb weniger Tage ueber 37.000 GitHub-Stars — ein Indikator fuer die Relevanz des Ansatzes in der Community.
Die wissenschaftliche Grundlage liegt in der Design-Science-Research-Tradition: Nicht Hypothesen testen, sondern innovative Artefakte zur Loesung realer Probleme konstruieren und systematisch bewerten. Genau diesen Ansatz verfolgen wir bei EconLab AI mit Governance Engineering — nur in einem anderen Domaene.
Haeufige Fragen (FAQ)
Was ist Karpathy Autoresearch?
Autoresearch ist ein Open-Source-Repository von Andrej Karpathy, das einem AI-Agenten erlaubt, autonom Machine-Learning-Experimente auf einer einzelnen GPU durchzufuehren. Der Agent modifiziert Code, trainiert 5 Minuten, misst das Ergebnis und wiederholt -- ohne menschliches Eingreifen.
Brauche ich spezielle Hardware?
Getestet wurde auf einer NVIDIA H100, aber es existieren Forks fuer macOS, Apple MLX und Windows RTX. Fuer kleinere Hardware empfiehlt Karpathy den TinyStories-Datensatz und reduzierte Modellparameter.
Wie viele Experimente kann man ueber Nacht laufen lassen?
Bei einem 5-Minuten-Budget pro Experiment sind es circa 12 pro Stunde, also ~100 in 8 Stunden. Karpathy selbst fuehrte 700 Experimente in zwei Tagen durch.
Kann man Autoresearch auch fuer andere Zwecke nutzen?
Ja. Das zugrunde liegende Pattern -- Target (was aendern), Eval (wie messen), Mutate (wie verbessern), Loop (wie oft) -- funktioniert fuer jede Aufgabe mit messbarer Metrik: Website-Performance, Prompt-Qualitaet, Email-Kampagnen, Code-Optimierung.
Was kostet Autoresearch?
Das Repository ist kostenlos (MIT-Lizenz). Kosten entstehen fuer GPU-Compute und den AI-Agent. Fuer die Business-Anwendung berichtete Nick Saraev von ~10 USD fuer 50 Optimierungszyklen.
Ist Autoresearch sicher?
Karpathy hat mehrere Guardrails eingebaut: Die Evaluierungsfunktion ist unantastbar, Experimente laufen auf isolierten Git-Branches, und der Output wird nicht direkt ins Agent-Context-Window geleitet. Fuer Produktionsumgebungen sollten zusaetzliche Sicherheitsmassnahmen implementiert werden.