Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

Each language version is independently generated for its own context, not a direct translation.

Warum Computerprogrammieren so leicht fällt, aber alles andere schwer ist

Stell dir vor, du bist ein junger Koch, der lernen soll, die perfekte Suppe zu kochen. Du hast zwei verschiedene Lehrer:

Lehrer A (Der Code-Lehrer): Er gibt dir ein Rezept. Wenn du einen Fehler machst (z. B. Salz statt Zucker), klingt es sofort laut „BIP!", und der Topf explodiert nicht, aber du weißt genau: „Ah, Salz war falsch." Du kannst sofort korrigieren.
Lehrer B (Der Reinforcement-Learning-Lehrer): Er gibt dir keine Anleitung. Du würfelst Zutaten zusammen, kochst eine Stunde lang, und am Ende sagt er nur: „Schmeckt gut" oder „Schmeckt scheußlich." Er sagt dir nicht, ob es am Salz lag, an der Temperatur oder daran, dass du die Zwiebeln zu spät geworfen hast.

Dieses Papier von Zhimin Zhao erklärt, warum Künstliche Intelligenz (KI) beim Programmieren (Lehrer A) so erfolgreich ist, aber bei vielen anderen Dingen (Lehrer B) oft scheitert – und warum mehr Rechenleistung allein das Problem nicht löst.

1. Das Geheimnis des Codes: Der „BIP"-Effekt

Programmcode ist wie ein sehr strenger, aber fairer Lehrer.

Er ist unflexibel: Ein einziger fehlender Punkt macht das ganze Programm kaputt.
Er ist lokal: Wenn ein Fehler passiert, weiß der Computer genau, auf welcher Zeile und bei welchem Wort es schiefging.
Er ist dicht: Bei jedem einzelnen Wort (Token), das die KI schreibt, gibt es sofortiges Feedback: „Das passt hier" oder „Das passt hier nicht".

Das ist wie beim Lernen eines Musikstücks, bei dem dir ein Metronom sofort sagt, wenn du aus dem Takt kommst. Die KI kann Millionen von Fehlern machen und sofort lernen, was richtig ist.

2. Das Problem bei Reinforcement Learning (RL)

Reinforcement Learning ist wie der Koch, der blind würfelt.

Das Signal ist zu schwach: Oft gibt es am Ende nur ein „Gewonnen/Verloren"-Signal. Aber warum hast du verloren? War es der erste Zug oder der letzte?
Der Spiegel-Effekt: Wenn die KI lernt, wie man ein Spiel gewinnt, ändert sich das Spiel selbst. Die Gegner passen sich an. Es ist wie ein Tanz, bei dem der Partner ständig die Musik ändert, sobald du den nächsten Schritt kennst.
Das Ergebnis: Die KI lernt nicht wirklich, sie „trickst" sich nur durch. Sie findet einen Weg, das Spiel zu gewinnen, ohne zu verstehen, wie es funktioniert (wie jemand, der ein Puzzle durch Zufall löst, ohne die Bilder zu sehen).

3. Die 5 Stufen der Lernbarkeit (Die Leiter)

Der Autor stellt eine Leiter mit fünf Stufen auf, um zu erklären, wie schwer es für eine KI ist, etwas zu lernen.

Stufe 0: Das Schwarze Loch (Nichts zu sehen)
- Beispiel: Das „Halteproblem" (Kann ein Programm ewig laufen?).
- Metapher: Du stehst in einem Raum ohne Fenster und ohne Tür. Du kannst nicht wissen, ob es draußen regnet. Egal wie oft du schreist, niemand antwortet. Hier hilft keine KI, egal wie groß sie ist.
Stufe 1: Der Trickser (Adversarial)
- Beispiel: Spam-Filter oder Rankingsysteme.
- Metapher: Du versuchst, einen Dieb zu fangen. Sobald du eine neue Falle stellst, lernt der Dieb, wie er sie umgeht. Das Ziel bewegt sich weg, sobald du es anvisierst. Die KI wird immer klüger, aber der Gegner auch.
Stufe 2: Das verrauschte Signal (Noisy)
- Beispiel: Bilder erkennen (Ist das ein Hund oder eine Katze?).
- Metapher: Du hörst jemanden durch eine dicke Wand sprechen. Du verstehst nicht jedes Wort, aber wenn du oft genug zuhörst, merkst du den Rhythmus. Es ist laut und ungenau, aber mit genug Übung klappt es. Das ist das Gebiet des normalen maschinellen Lernens.
Stufe 3: Der einseitige Lehrer (Indirect)
- Beispiel: Programmieren lernen nur durch gute Beispiele.
- Metapher: Du siehst nur die Gewinner eines Spiels, aber nie die Verlierer. Du weißt nicht, was schlecht ist, du weißt nur, was gut aussieht. Du kannst lernen, gute Sätze zu bilden, aber du kannst nicht beweisen, dass du die ganze Sprache verstehst. Code-KIs arbeiten hier: Sie sehen Millionen guter Programme und lernen, welche Muster funktionieren.
Stufe 4: Der perfekte Prüfer (Direct)
- Beispiel: Ein Compiler (der Code übersetzt).
- Metapher: Ein Mathematiker, der jede deiner Gleichungen sofort auf Richtigkeit prüft. „Richtig" oder „Falsch". Keine Grauzone. Code hat diese Stufe, weil ein Computer sofort sagt: „Das kompiliert nicht."

Der Clou: Programmieren ist erfolgreich, weil es eine Mischung aus Stufe 3 (Lernen durch Beispiele) und Stufe 4 (sofortige, harte Prüfung) ist. Die KI sieht viele gute Beispiele und wird sofort korrigiert, wenn sie einen Fehler macht.

4. Warum mehr Rechenleistung nicht hilft

Viele denken: „Wenn wir nur größere Modelle bauen und mehr Daten füttern, lösen wir alle Probleme."
Das Papier sagt: Nein.

Die Falle der Komplexität: Wenn ein Problem von Natur aus unklar ist (wie Stufe 0 oder 1), macht ein größeres Gehirn nur mehr Fehler schneller. Es ist wie ein sehr schneller Auto, das in eine Wand fährt – es fährt schneller gegen die Wand, aber es kommt nicht durch.
Die Struktur zählt mehr als die Größe: Code ist lernbar, weil er eine klare Struktur hat. Ein offenes Gespräch oder ein chaotisches politisches System hat diese Struktur nicht. Man kann keine KI bauen, die „alles" versteht, wenn die Welt keine klaren Regeln hat.

5. Was lernen wir daraus? (Die Zukunft)

Die Zukunft der KI liegt nicht darin, einfach nur „größer" zu werden, sondern darin, klüger zu fragen:

Teile das Problem auf: Statt zu versuchen, eine ganze Software zu schreiben, lass die KI nur einen kleinen Satz schreiben, der sofort geprüft wird.
Baue bessere Lehrer: Wenn wir KI bei schwierigen Dingen (wie Medizin oder Recht) einsetzen wollen, müssen wir ihr nicht nur das Endergebnis zeigen, sondern ihr Schritt-für-Schritt-Feedback geben.
Suche nach den „lernbaren" Problemen: Wir müssen herausfinden, welche Aufgaben eine klare Struktur haben (wie Code) und welche nicht. Bei den ersten können wir riesige Fortschritte machen. Bei den zweiten müssen wir vorsichtig sein.

Fazit

Die KI ist kein magischer Allwissender. Sie ist wie ein sehr talentierter Schüler, der nur dann brilliert, wenn der Lehrer klare, sofortige Rückmeldungen gibt.
Programmieren funktioniert so gut, weil der Computer selbst der perfekte Lehrer ist. Bei anderen Dingen fehlt uns oft dieser klare Lehrer. Bevor wir noch mehr Geld in riesige Computer stecken, sollten wir erst verstehen, ob das Problem überhaupt so beschaffen ist, dass es gelernt werden kann.

Kurz gesagt: Es geht nicht darum, wie stark unser Gehirn ist, sondern darum, ob die Aufgabe überhaupt lehrbar ist.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning" von Zhimin Zhao auf Deutsch.

1. Problemstellung

Das Papier adressiert ein fundamentales Paradoxon im Bereich des maschinellen Lernens (ML): Warum macht Fortschritte bei der Code-Generierung (z. B. durch Large Language Models) so konsistent und vorhersehbar, während Reinforcement Learning (RL) oft unter Verteilungsverschiebungen (distribution shift) kollabiert und keine generalisierte Kompetenz aufbaut, selbst bei massiven Interaktionsbudgets?

Häufige Erklärungen wie „RL benötigt mehr Rechenleistung" oder „Belohnungssignale sind zu spärlich" werden als unzureichend kritisiert, da das Muster über verschiedene Skalierungsordnungen hinweg bestehen bleibt. Die zentrale These des Autors ist, dass das Hauptproblem nicht architektonischer oder algorithmischer Natur ist, sondern strukturell: Es liegt in der Informationsstruktur der Aufgabe selbst. Nicht jede Aufgabe ist unter realistischen Daten- und Interaktionsregimen lernbar, unabhängig von der Modellgröße.

2. Methodik und Theoretischer Rahmen

Der Autor entwickelt einen formalen Rahmen, der drei Eigenschaften von Berechnungsproblemen unterscheidet und deren Beziehungen analysiert:

Ausdrucksfähigkeit (Expressibility): Kann ein Modell die Lösung theoretisch darstellen?
Berechenbarkeit (Computability): Existiert ein Algorithmus, der die Lösung terminierend berechnet?
Lernbarkeit (Learnability): Kann ein Modell die Lösung aus Daten unter realistischen Bedingungen (Rauschen, begrenzte Ressourcen, sequenzielle Informationen) lernen?

Auf Basis dieser Unterscheidung wird eine fünfstufige Hierarchie der Lernbarkeit entwickelt, die auf der Qualität des Feedbacks für den Lernalgorithmus basiert. Zudem wird eine unifizierte formale Vorlage (Unified Template) vorgestellt, die diese Eigenschaften durch Quantorenstrukturen ( $\exists \forall$ -Alternationen) und Risiko-Funktionale vergleicht.

3. Die Hierarchie der Lernbarkeit (5 Levels)

Die Hierarchie ordnet Lernprobleme nach der Verfügbarkeit und Qualität von Feedback:

Level 0: Kein Feedback (Unbeobachtbarkeit): Unterschiedliche Hypothesen erzeugen identische Beobachtungen. Skalierung hilft nicht (z. B. das Halteproblem, vollständig „Goodharted" Metriken).
Level 1: Adversariales Feedback: Information existiert, aber das Ziel verschiebt sich als Reaktion auf das Lernen (Reflexivität). Konvergenz ist instabil (z. B. das Ausnutzen von Ranking-Algorithmen).
Level 2: Rauschbehaftetes Feedback: Hypothesen sind statistisch unterscheidbar, aber einzelne Beobachtungen sind verrauscht. Dies entspricht dem PAC-Lernen (Probably Approximately Correct). Skalierung führt zu konvergierenden Ergebnissen (z. B. Bildklassifizierung).
Level 3: Indirektes Feedback: Der Lerner erhält nur einseitige Evidenz (Widerlegung von Falschem ist möglich, Bestätigung von Richtigem nicht). Dies entspricht der Generierung im Limit (Generation in the limit). Der Lerner kann korrekte Ausgaben produzieren, ohne die vollständige Grammatik zu identifizieren.
Level 4: Direktes Feedback: Jede Ausgabe kann sofort und deterministisch verifiziert werden (z. B. Typisierung, Kompilierung, formale Beweisverifikation). Dies ermöglicht vorhersehbare Skalierung.

4. Schlüsselerkenntnisse und Ergebnisse

A. Warum Code-Generierung funktioniert

Code besitzt eine einzigartige Informationsstruktur, die ihn für überwachtes Lernen (Supervised Learning) ideal macht:

Harte syntaktische Constraints: Ein einziger Fehler macht das Programm ungültig (binäres Signal).
Lokal identifizierbare Fehler: Compiler und Typchecker liefern dichte, lokale Fehlermeldungen (Level 4 Feedback), die dem Modell genau sagen, wo der Fehler liegt.
Starke Kompositionalität: Muster sind wiederverwendbar und kontextunabhängig.

Im Gegensatz dazu reduziert RL die reichhaltigen diagnostischen Signale des Codes auf einen einzigen skalaren Reward (Pass/Fail). Dies ist ein niedrigdimensionales, leicht zu manipulierendes Signal, das keine Anleitung für Zwischenschritte bietet. Code-Generierung profitiert von einer Kombination aus Level 3 Lernen (Training auf validen Programmen ohne explizite negative Beispiele) und Level 4 Scaffolding (Filterung durch Compiler/Test-Suiten), was die Lernbarkeit stabilisiert.

B. Die Falle der Ausdrucksfähigkeit (Expressibility Trap)

Das Paper widerlegt die Annahme, dass mehr Ausdrucksfähigkeit (z. B. durch tiefere neuronale Netze oder Turing-Vollständigkeit) automatisch zu besserem Lernen führt.

VC-Dimension: Hypothesenräume mit unendlicher VC-Dimension (wie der Raum aller berechenbaren Funktionen) sind unter verteilungsunabhängigen Annahmen nicht PAC-lernbar.
Epiplexity vs. Entropie: Daten wie Text enthalten mehr „strukturelle Information" (Epiplexity), die in Modellgewichte extrahiert werden kann, im Vergleich zu Bildern, die oft mehr zeitgebundene Entropie (unvorhersehbare Pixelwerte) enthalten.
Lernbarkeit ist die Engpass: Ein Modell kann eine Funktion ausdrücken, aber nicht lernen, sie aus Daten abzuleiten, wenn die Informationsstruktur der Aufgabe dies nicht zulässt.

C. Die Grenzen von Reinforcement Learning

RL scheitert oft nicht an mangelnder Rechenleistung, sondern an strukturellen Hindernissen:

Informationsfehlausrichtung: Das Credit-Assignment-Problem bei verzögerten Belohnungen.
Nicht-Stationarität: Die Policy des Agents verändert die Datenverteilung, was die Konvergenztheoreme des überwachten Lernens ungültig macht.
Reflexiver Reward-Kollaps: Wenn das Ziel durch das Lernen selbst verschoben wird (Goodhart's Law), degeneriert das Feedback zu Rauschen (Level 1 $\to$ Level 0).

5. Bedeutung und Implikationen

Neudefinition von Skalierung: Skalierung allein löst keine Probleme, deren Informationsstruktur nicht lernbar ist. Bei unlearnbaren Aufgaben führt mehr Rechenleistung nur zu schnellerem Overfitting oder Kollaps.
Strategische Ausrichtung: Der Fokus sollte von der Frage „Ist das Modell stark genug?" hin zu „Ist diese Aufgabe lernbar?" verschoben werden.
Designprinzipien für ML: Um unlernbare Probleme lösbar zu machen, müssen sie in lernbare Formen umgewandelt werden durch:
- Aufgabenzerlegung: Monolithische Ziele in lokal verifizierbare Schritte aufteilen.
- Engineering von Feedback-Strukturen: Dichte, zeitnahe und attributive Signale bereitstellen.
- Schwächere Ziele: Lokale Korrektheit statt globaler Optimalität anstreben.
- Proxy-Re-Encodierung: Das ursprüngliche Problem in einen Proxy übersetzen, der statistische Optimierung zulässt (z. B. „nächster Token" statt „Beweis führen").

Fazit

Das Paper argumentiert, dass der Erfolg von KI in Bereichen wie Code-Generierung, Protein-Strukturvorhersage und Schach nicht auf einer allgemeinen „Intelligenz" beruht, sondern auf der Tatsache, dass diese Domänen eine günstige Informationsstruktur besitzen, die Gradientenabstieg und Mustererkennung ausnutzen können. Die zukünftigen Durchbrüche in der KI werden davon abhängen, welche Probleme lernbar sind und wie unlernbare Probleme in lernbare Proxy-Aufgaben umgewandelt werden können, anstatt einfach nur größere Modelle zu trainieren.

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

Warum Computerprogrammieren so leicht fällt, aber alles andere schwer ist

1. Das Geheimnis des Codes: Der „BIP"-Effekt

2. Das Problem bei Reinforcement Learning (RL)

3. Die 5 Stufen der Lernbarkeit (Die Leiter)

4. Warum mehr Rechenleistung nicht hilft

5. Was lernen wir daraus? (Die Zukunft)

Fazit

1. Problemstellung

2. Methodik und Theoretischer Rahmen

3. Die Hierarchie der Lernbarkeit (5 Levels)

4. Schlüsselerkenntnisse und Ergebnisse

A. Warum Code-Generierung funktioniert

B. Die Falle der Ausdrucksfähigkeit (Expressibility Trap)

C. Die Grenzen von Reinforcement Learning

5. Bedeutung und Implikationen

Fazit

Mehr davon

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models