Causality \neq Invariance: Function and Concept Vectors in LLMs

Die Studie zeigt, dass Large Language Models zwar abstrakte Konzeptvektoren enthalten, die über Eingabeformate hinweg stabil sind, diese sich jedoch von den funktionalen Vektoren unterscheiden, die für das In-Context-Learning maßgeblich sind und bei Formatwechseln ihre Wirksamkeit verlieren.

Gustaw Opiełka, Hannes Rosenbusch, Claire E. Stevenson

Veröffentlicht 2026-02-27
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie denken KI-Modelle wirklich?

Stellen Sie sich vor, Sie haben einen riesigen, super-intelligenten Bibliothekar (das KI-Modell). Wenn Sie ihn bitten, ein Rätsel zu lösen, tut er das. Aber die Forscher aus diesem Papier wollten wissen: Versteht er das Rätsel wirklich abstrakt, oder macht er es nur, weil er die Form der Frage kennt?

Bisher dachte man: „Wenn die KI das gleiche Konzept (z. B. „Gegenteil von") in verschiedenen Sprachen oder Fragestellungen löst, dann muss sie ein universelles, abstraktes Verständnis davon haben."

Die Forscher haben jedoch herausgefunden: Das ist nicht ganz richtig. Die KI benutzt zwei völlig verschiedene „Werkzeuge" für zwei verschiedene Aufgaben.


Die zwei Werkzeuge: Der „Befehlsgeber" und der „Philosoph"

Die Forscher haben zwei Arten von „Gedächtnisspuren" im Gehirn der KI gefunden. Man kann sie sich wie zwei verschiedene Teams vorstellen:

1. Der „Befehlsgeber" (Function Vectors / FV)

  • Was er macht: Er ist derjenige, der die KI tatsächlich dazu bringt, die richtige Antwort zu geben. Er ist der Motor, der das Auto zum Laufen bringt.
  • Sein Problem: Er ist sehr oberflächlich. Er verwechselt das Was mit dem Wie.
  • Die Analogie: Stellen Sie sich einen Koch vor, der ein Rezept für eine Suppe kennt.
    • Wenn Sie ihm sagen: „Koch mir eine Suppe" (offene Frage), denkt er an einen Topf und einen Löffel.
    • Wenn Sie ihm sagen: „Wählen Sie die richtige Suppe aus dieser Liste" (Multiple Choice), denkt er plötzlich an einen Kaffeebecher und einen Löffel aus Plastik.
    • Für den „Befehlsgeber" ist das Rezept (die Suppe) untrennbar mit dem Geschirr (dem Format) verbunden. Wenn Sie ihm das Rezept aus einem anderen Land geben (z. B. auf Französisch), denkt er plötzlich an französische Töpfe und nicht mehr an die Suppe selbst.
    • Ergebnis: Er funktioniert super, wenn das Format stimmt. Aber wenn Sie ihn in eine neue Situation stecken (z. B. eine andere Sprache oder Frageart), versagt er oder gibt seltsame Antworten, weil er das Format mit dem Inhalt vermischt.

2. Der „Philosoph" (Concept Vectors / CV)

  • Was er macht: Er versteht das Konzept wirklich abstrakt. Er weiß, was eine „Suppe" ist, egal ob sie in einem Topf, einem Becher oder auf Französisch serviert wird.
  • Sein Vorteil: Er ist sehr stabil. Er ignoriert die Oberflächendetails (Sprache, Frageform) und fokussiert sich nur auf die Idee.
  • Sein Nachteil: Er ist ein bisschen faul. Er kann die KI nicht alleine zum Laufen bringen. Er ist wie ein Philosoph, der tiefgründige Gedanken hat, aber keine Hand anlegt. Er braucht den „Befehlsgeber", um die eigentliche Arbeit zu erledigen.
  • Die Analogie: Der Philosoph sagt: „Es geht hier um das Konzept der Gegensätze." Er kümmert sich nicht darum, ob die Frage auf Deutsch, Französisch oder als Multiple-Choice-Frage gestellt wird. Er bleibt immer bei der gleichen Idee.

Das Experiment: Der „Verwirrte Bibliothekar"

Die Forscher haben ein spannendes Experiment gemacht. Sie haben der KI eine Frage gestellt, die zwei widersprüchliche Ideen enthielt:

  1. „Nenne das Gegenteil von 'glücklich'." (Die eigentliche Aufgabe).
  2. „Übersetze 'glücklich' ins Französische." (Eine Ablenkung).

Normalerweise würde die KI die Übersetzung machen, weil das im Text steht. Aber die Forscher haben versucht, die KI mit ihren beiden Werkzeugen zu „steuern".

  • Mit dem „Befehlsgeber" (FV): Wenn sie ihn aus einem englischen Text nahmen, konnte er die KI gut steuern, wenn die neue Frage auch auf Englisch war. Aber sobald sie die Frage auf Französisch stellten, verwirrte sich der Befehlsgeber. Er dachte: „Aha, Französisch! Ich muss ins Französische übersetzen!" und ignorierte die eigentliche Aufgabe. Er verwechselte die Sprache mit der Aufgabe.
  • Mit dem „Philosophen" (CV): Wenn sie ihn nutzten, passierte etwas Magisches. Der Philosoph sagte: „Nein, es geht um das Gegenteil!" Und die KI hörte auf, die Übersetzung zu machen, und gab stattdessen das richtige Gegenteil – und zwar auf Französisch, weil der Kontext es so verlangte. Der Philosoph verstand: „Die Aufgabe ist 'Gegenteil', die Sprache ist nur Verpackung."

Die große Erkenntnis

Die wichtigste Botschaft dieses Papers ist: Kausalität ist nicht dasselbe wie Invarianz.

  • Kausalität (Was passiert?): Der „Befehlsgeber" (FV) ist dafür verantwortlich, dass die KI die Antwort tatsächlich ausspuckt. Ohne ihn passiert nichts. Aber er ist an das Format gebunden.
  • Invarianz (Was ist wahr?): Der „Philosoph" (CV) hält das abstrakte Konzept in Schuss. Er ist stabil und universell, aber er treibt die KI nicht direkt an.

Zusammengefasst in einem Satz:
Die KI hat zwar ein tiefes, abstraktes Verständnis von Konzepten (wie ein Philosoph), aber um eine Aufgabe tatsächlich zu lösen, verlässt sie sich auf einen oberflächlichen Mechanismus (wie einen Befehlsgeber), der oft die Form der Frage mit dem Inhalt verwechselt.

Warum ist das wichtig?

Wenn wir KI-Modelle verbessern wollen, müssen wir verstehen, dass wir zwei Dinge trennen müssen:

  1. Wie wir die KI dazu bringen, eine Aufgabe zu lösen (dafür brauchen wir den Befehlsgeber).
  2. Wie wir sicherstellen, dass sie die Aufgabe richtig versteht, egal wie wir sie fragen (dafür brauchen wir den Philosophen).

Bisher haben wir gedacht, beides sei dasselbe. Dieses Papier zeigt uns, dass wir zwei getrennte Schaltkreise im Gehirn der KI haben, die unterschiedlich funktionieren. Das hilft uns, KI robuster zu machen, damit sie nicht verwirrt wird, wenn wir die Fragen nur ein bisschen anders formulieren.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →