the-decoder.de

Source: the-decoder.de

TL;DR

The story at a glance

Andrej Karpathy beschreibt den scheinbaren Widerspruch in KI-Modellen: Kostenlose Versionen scheitern an simplen Fragen, während teure Profi-Modelle wie OpenAI Codex oder Claude Code Programmieraufgaben meistern. Er trennt Laien-Erfahrungen von professionellem Einsatz in Code, Mathe und Forschung. Der Artikel greift das auf, da 2023 enorme Fortschritte in verifizierbaren Bereichen sichtbar wurden.

Key points

Details and context

Karpathy kontrastiert Alltagsnutzung (z.B. Instagram-Reels-Fragen) mit technischen Anwendungen, wo Modelle eigenständig arbeiten. In seinem "Software 2.0"-Essay argumentiert er, dass nicht die Spezifizierbarkeit, sondern Verifizierbarkeit zählt – also ob Erfolge maschinell bewertbar sind.

Das erklärt den Ungleichgewicht: Bei Code gibt es klare Tests, bei offenen Fragen fehlt messbares Feedback. Letzten Sommer gab es unbestätigte Gerüchte zu einem Universal Verifier von OpenAI, der RL breiter anwendbar machen könnte.

Key quotes

"Je verifizierbarer eine Aufgabe ist, desto besser lässt sie sich im neuen Programmierparadigma automatisieren."

Andrej Karpathy

Why it matters

KI-Fortschritt verteilt sich ungleich: Stark in technischen Domänen, schwach in Alltagsthemen ohne klare Metriken. Für Entwickler bedeutet das sofort nutzbare Tools wie Codex zur Code-Optimierung, für Normalnutzer aber weiterhin Halluzinationen. Zu beobachten sind Versuche, Verifizierung auf mehr Bereiche auszudehnen – bisher nur Gerüchte.