The Rules-and-Facts Model for Simultaneous Generalization and Memorization in Neural Networks

Die Arbeit stellt das Rules-and-Facts-Modell vor, ein theoretisches Rahmenwerk aus der statistischen Physik, das erklärt, wie überparametrisierte neuronale Netze durch die Aufteilung ihrer Kapazität gleichzeitig strukturierte Regeln zur Generalisierung und unstrukturierte Fakten zur Memorierung erlernen können.

Gabriele Farné, Fabrizio Boncoraglio, Lenka Zdeborová

Veröffentlicht 2026-03-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Lernen vs. Auswendiglernen

Stell dir vor, du lernst für eine Prüfung. Du hast zwei Arten von Aufgaben:

  1. Die Regeln: Du lernst die Grammatik einer Sprache oder wie man Zahlen addiert. Wenn du die Regel verstehst, kannst du jeden neuen Satz bilden oder jede neue Summe berechnen, auch solche, die du noch nie gesehen hast. Das nennen wir Generalisierung.
  2. Die Fakten: Du musst dir bestimmte Dinge einfach merken, weil es keine Regel dafür gibt. Zum Beispiel: „Die Hauptstadt von Frankreich ist Paris" oder „Das Verb 'gehen' wird im Past zu 'ging'". Diese Dinge sind willkürlich. Du kannst sie nicht ableiten, du musst sie auswendig lernen.

Bisher dachten viele Forscher, dass diese beiden Dinge im Gehirn (und in Computern) im Konflikt stehen. Die alte Meinung war: „Wenn du zu viel auswendig lernst, verstehst du die Regeln nicht mehr." Es war wie ein Kampf zwischen dem Verstand und dem Gedächtnis.

Die neue Entdeckung: Das „Regeln-und-Fakten"-Modell

Die Autoren dieses Papiers (Gabriele Farné, Fabrizio Boncoraglio und Lenka Zdeborová von der EPFL) haben sich gefragt: Können moderne KI-Modelle beides gleichzeitig? Können sie die Grammatik verstehen und sich die Ausnahmen merken?

Um das zu beweisen, haben sie ein kleines, vereinfachtes Gedankenexperiment erfunden, das sie das RAF-Modell (Rules-and-Facts) nennen.

Das Experiment:
Stell dir einen Schüler vor, der eine Aufgabe bekommt.

  • 90 % der Aufgaben folgen einer klaren Regel (z. B. „Addiere immer 2").
  • 10 % der Aufgaben sind „Fakten" oder Ausnahmen, bei denen das Ergebnis völlig zufällig ist (z. B. „Was ist 2 + 2? Antwort: 7").

Der Schüler muss lernen, die Regel zu verstehen (um neue Aufgaben zu lösen), aber er muss sich auch die 10 % zufälligen Antworten genau merken.

Die Lösung: Überdimensionierung ist der Schlüssel

Das Spannende an ihrer Entdeckung ist die Antwort auf die Frage: Wie schafft der Schüler das?

Die Antwort lautet: Er braucht einen riesigen Rucksack (Überdimensionierung).

In der Welt der KI bedeutet das: Das Modell muss viel mehr „Parameter" (Gedankenverbindungen) haben, als es eigentlich nötig wäre, um die Regel zu lernen.

Die Analogie vom Rucksack:
Stell dir vor, du hast einen Rucksack, um deine Sachen zu tragen.

  • Der kleine Rucksack (zu wenig Kapazität): Wenn du versuchst, die Regel zu lernen, hast du keinen Platz mehr, um die 10 % zufälligen Fakten mitzunehmen. Du musst dich entscheiden: Entweder du verstehst die Regel gut, aber vergisst die Fakten, ODER du merkst dir die Fakten, aber verstehst die Regel nicht mehr.
  • Der riesige Rucksack (Überdimensionierung): Wenn dein Rucksack riesig ist, kannst du die Regel in einem Fach verstauen und hast im anderen Fach noch genug Platz, um die zufälligen Fakten separat abzulegen.

Das Papier zeigt mathematisch, dass moderne KI-Modelle (wie die, die Chatbots antreiben) genau diesen „riesigen Rucksack" haben. Sie sind so groß, dass sie nicht entweder Regeln lernen oder Fakten merken müssen. Sie können beides tun, ohne sich gegenseitig zu behindern.

Die Rolle der „Werkzeuge" (Kerne und Regularisierung)

Aber nur ein großer Rucksack reicht nicht. Man muss wissen, wie man ihn packt. Die Forscher haben gezeigt, dass zwei Dinge entscheidend sind:

  1. Die Art des Lernens (Der Kernel): Stell dir vor, der Schüler nutzt verschiedene Lernmethoden. Manche Methoden sind wie ein starrer Lineal (gut für Regeln, schlecht für Fakten). Andere sind wie ein flexibler Schwamm (kann sich an Regeln anpassen und gleichzeitig Flecken/Fakten aufnehmen). Das Papier zeigt, welche „Schwämme" am besten funktionieren.
  2. Die Disziplin (Regularisierung): Das ist wie ein Lehrer, der sagt: „Lerne die Regel, aber vergiss die Fakten nicht!" Wenn der Schüler zu streng diszipliniert ist (zu viel Regularisierung), lernt er die Regel perfekt, ignoriert aber die Fakten. Wenn er zu locker ist, lernt er die Fakten perfekt, aber verwechselt die Regeln. Das Papier findet den „Goldilocks"-Punkt (den perfekten Mittelweg), wo beides funktioniert.

Warum ist das wichtig?

Früher dachte man, wenn eine KI Dinge auswendig lernt (was man früher als „Overfitting" oder Fehler ansah), dann ist sie dumm geworden.
Diese Forschung sagt: Nein! Das Auswendiglernen von Fakten ist kein Fehler, sondern eine notwendige Fähigkeit.

  • Für KI: Es erklärt, warum große Sprachmodelle (wie ich) sowohl Grammatikregeln beherrschen als sich auch spezifische Namen oder Daten merken können.
  • Für uns Menschen: Es gibt uns einen neuen Blick darauf, wie unser eigenes Gehirn funktioniert. Vielleicht nutzen auch wir einen „riesigen Rucksack", um komplexe Regeln zu verstehen und gleichzeitig unsere persönlichen Erinnerungen (die oft willkürlich sind) zu speichern.

Zusammenfassung in einem Satz

Moderne KI-Modelle sind so groß und flexibel, dass sie nicht zwischen „Verstehen" und „Auswendiglernen" wählen müssen; sie haben einfach genug Platz im Kopf, um beides gleichzeitig perfekt zu machen.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →