the-decoder.de
Source: the-decoder.de
TL;DR
- Andrej Karpathy erklärt, warum KI-Modelle bei komplexen Codes glänzen, aber einfache Fragen vermasseln.
- Professionelle Modelle wie Codex restrukturieren Codebasen in einer Stunde oder finden Sicherheitslücken.
- Verifizierbare Aufgaben wie Programmierung profitieren stärker von KI-Fortschritt durch automatisierbares Feedback.
The story at a glance
Andrej Karpathy beschreibt den scheinbaren Widerspruch in KI-Modellen: Kostenlose Versionen scheitern an simplen Fragen, während teure Profi-Modelle wie OpenAI Codex oder Claude Code Programmieraufgaben meistern. Er trennt Laien-Erfahrungen von professionellem Einsatz in Code, Mathe und Forschung. Der Artikel greift das auf, da 2023 enorme Fortschritte in verifizierbaren Bereichen sichtbar wurden.
Key points
- Zwei Gruppen urteilen unterschiedlich über KI: Laien mit veralteten Modellen sehen Halluzinationen, Profis nutzen aktuelle Modelle für enorme Fortschritte.
- Kostenloser Advanced Voice Mode scheitert an dummen Fragen, während Codex Codebasen kohärent umstrukturiert oder Sicherheitslücken ausnutzt.
- Verifizierbare Bereiche wie Code oder Mathe lassen sich durch Reinforcement Learning mit richtig/falsch-Feedback besser trainieren als Schreiben oder Beratung.
- Karpathy betont "Verifizierbarkeit" als Schlüssel: Nur bei automatisiertem Feedback entsteht effizienter Fortschritt.
- Offene Frage: Können Sprachmodelle generalisieren oder bleiben sie domänenspezifisch? Gerüchte um OpenAIs "Universal Verifier" sind unbestätigt.
Details and context
Karpathy kontrastiert Alltagsnutzung (z.B. Instagram-Reels-Fragen) mit technischen Anwendungen, wo Modelle eigenständig arbeiten. In seinem "Software 2.0"-Essay argumentiert er, dass nicht die Spezifizierbarkeit, sondern Verifizierbarkeit zählt – also ob Erfolge maschinell bewertbar sind.
Das erklärt den Ungleichgewicht: Bei Code gibt es klare Tests, bei offenen Fragen fehlt messbares Feedback. Letzten Sommer gab es unbestätigte Gerüchte zu einem Universal Verifier von OpenAI, der RL breiter anwendbar machen könnte.
Key quotes
"Je verifizierbarer eine Aufgabe ist, desto besser lässt sie sich im neuen Programmierparadigma automatisieren."
Andrej Karpathy
Why it matters
KI-Fortschritt verteilt sich ungleich: Stark in technischen Domänen, schwach in Alltagsthemen ohne klare Metriken. Für Entwickler bedeutet das sofort nutzbare Tools wie Codex zur Code-Optimierung, für Normalnutzer aber weiterhin Halluzinationen. Zu beobachten sind Versuche, Verifizierung auf mehr Bereiche auszudehnen – bisher nur Gerüchte.