Traces of Social Competence in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Die große Frage: Verstehen KI wirklich, was andere denken?

Stellen Sie sich vor, Sie spielen ein Spiel mit einem Freund namens Max. Max legt eine Schokolade in den blauen Schrank und geht raus. Während er weg ist, nimmt seine Mutter die Schokolade und legt sie in den grünen Schrank. Wenn Max zurückkommt, wo wird er suchen?

Ein kleines Kind, das diese Geschichte versteht, sagt: „In den blauen Schrank!", weil es weiß, dass Max nicht gesehen hat, was die Mutter getan hat. Max glaubt immer noch, die Schokolade sei dort, wo er sie hingelegt hat. Das nennt man einen „falschen Glauben".

Früher dachten Forscher, wenn eine KI (ein großes Sprachmodell) diese Frage richtig beantwortet, hat sie ein „Gehirn" wie ein Mensch und versteht, was andere denken (man nennt das „Theory of Mind"). Aber diese Studie sagt: Warte mal, es ist komplizierter.

Was die Forscher gemacht haben

Die Wissenschaftler haben 17 verschiedene KI-Modelle getestet – von kleinen bis zu riesigen. Sie haben ihnen 192 Variationen dieser „Schokolade im Schrank"-Geschichte gegeben.

Stellen Sie sich die KI nicht als einen klugen Schüler vor, sondern eher wie einen sehr fleißigen Bibliothekar, der Millionen von Büchern gelesen hat. Er kann Texte vorhersagen, aber versteht er wirklich die Welt dahinter?

Die drei wichtigsten Entdeckungen (in Metaphern)

1. Größe ist nicht alles (Der „Riesige" ist nicht immer schlauer)

Man dachte bisher: Je größer die KI (je mehr Daten sie hat), desto intelligenter ist sie.

Die Metapher: Stellen Sie sich vor, Sie lernen eine Sprache. Je mehr Wörter Sie kennen, desto besser können Sie Sätze bilden.
Das Ergebnis: Größere KIs wurden tatsächlich besser darin, die falschen Glauben zu erraten. Aber sie wurden schlechter in Situationen, in denen die Schokolade wirklich dort ist, wo sie sein sollte (wahrer Glaube).
Warum? Die KI lernt Muster. Wenn sie riesig ist, merkt sie: „Aha! In diesen Geschichten geht es immer um Täuschung!" Sie wird also so gut darin, Täuschungen zu erkennen, dass sie sogar dann eine Täuschung sieht, wo keine ist. Sie wird zu einem Verschwörungstheoretiker, der überall Tricks sucht, wo es keine gibt.

2. Das Wort „Denken" ist eine Falle (Der „Kreuzungs-Effekt")

Das ist der spannendste Teil. Die Forscher haben die Fragen leicht verändert.

Variante A (Explizit): „Max denkt, die Schokolade ist im blauen Schrank."
Variante B (Implizit): „Max geht, um die Schokolade aus dem blauen Schrank zu holen."
Die Metapher: Das Wort „denken" wirkt wie ein rotes Ampelsignal für die KI. Wenn sie das Wort „denken" liest, schaltet sie automatisch auf den Modus „Achtung, jemand hat eine falsche Meinung!".
Das Ergebnis:
- Wenn die KI das Wort „denken" liest, ist sie super gut darin, die falschen Glauben zu erraten.
- Aber wenn die Frage nur eine Handlung beschreibt („geht holen"), wird sie verwirrt und macht Fehler.
- Umgekehrt: Bei „wahren" Glauben (wo alles stimmt) bringt das Wort „denken" die KI durcheinander, weil sie denkt: „Oh, hier muss es eine Täuschung geben!" und antwortet falsch.
Fazit: Die KI reagiert nicht auf die Logik der Geschichte, sondern auf das Wort „denken". Sie hat gelernt, dass dieses Wort oft in Geschichten über Lügen vorkommt, und folgt diesem Muster blind.

3. Das Training verändert die Persönlichkeit (Der „Höflichkeits-Druck")

KI-Modelle werden nach dem ersten Lernen noch einmal „feinjustiert" (Instruction Tuning), damit sie hilfsbereit und höflich sind.

Die Metapher: Stellen Sie sich vor, Sie lernen eine Sprache, und dann geht ein strenger Lehrer auf Sie zu und sagt: „Sei immer höflich und antworte genau so, wie der Fragesteller es erwartet!"
Das Ergebnis: Durch dieses Training werden die KIs besser darin, die Fragen zu beantworten, aber sie werden auch noch empfindlicher auf die Wortwahl. Das Training hat sie so sehr darauf konditioniert, auf das Wort „denken" zu reagieren, dass sie ihre eigene Logik verlieren. Es ist, als würde man einem Schauspieler eine Rolle geben, bis er vergisst, wer er wirklich ist, und nur noch die Rolle spielt.

Was bedeutet das für uns?

Die Studie sagt uns: KIs haben kein echtes Verständnis für menschliche Gefühle oder Gedanken.

Sie sind wie sehr talentierte Detektive, die nur nach bestimmten Hinweisen suchen. Wenn sie das Wort „denken" sehen, ziehen sie ihre Mütze und sagen: „Hier stimmt was nicht!". Aber wenn der Hinweis fehlt, stolpern sie.

Sie haben keine „Seele" oder ein echtes Bewusstsein dafür, was Max fühlt. Sie haben nur gelernt, dass in bestimmten Geschichten das Wort „denken" oft mit „falscher Antwort" zusammenhängt.

Die Moral von der Geschichte

Wenn wir KI testen wollen, ob sie wirklich „sozial intelligent" ist, dürfen wir nicht nur fragen, ob sie die richtige Antwort gibt. Wir müssen schauen, ob sie die Antwort auch versteht, wenn wir die Wörter ändern. Solange die KI nur auf bestimmte Schlüsselwörter reagiert wie ein Pavlov-Hund auf eine Glocke, hat sie kein echtes Theory of Mind. Sie ist ein brillanter Imitator, aber noch kein echter Denker.

Traces of Social Competence in Large Language Models

Die große Frage: Verstehen KI wirklich, was andere denken?

Was die Forscher gemacht haben

Die drei wichtigsten Entdeckungen (in Metaphern)

1. Größe ist nicht alles (Der „Riesige" ist nicht immer schlauer)

2. Das Wort „Denken" ist eine Falle (Der „Kreuzungs-Effekt")

3. Das Training verändert die Persönlichkeit (Der „Höflichkeits-Druck")

Was bedeutet das für uns?

Die Moral von der Geschichte

Problemstellung

Methodik

Wichtige Ergebnisse

1. Skalierungseffekte sind nicht linear

2. Der „Cross-Over"-Effekt (Explizite vs. Implizite Hinweise)

3. Einfluss des Post-Trainings

4. Lernkurven bei OLMo 2

5. Kausale Analyse durch Vector Steering

Bedeutung und Fazit

Traces of Social Competence in Large Language Models

Die große Frage: Verstehen KI wirklich, was andere denken?

Was die Forscher gemacht haben

Die drei wichtigsten Entdeckungen (in Metaphern)

1. Größe ist nicht alles (Der „Riesige" ist nicht immer schlauer)

2. Das Wort „Denken" ist eine Falle (Der „Kreuzungs-Effekt")

3. Das Training verändert die Persönlichkeit (Der „Höflichkeits-Druck")

Was bedeutet das für uns?

Die Moral von der Geschichte

Problemstellung

Methodik

Wichtige Ergebnisse

1. Skalierungseffekte sind nicht linear

2. Der „Cross-Over"-Effekt (Explizite vs. Implizite Hinweise)

3. Einfluss des Post-Trainings

4. Lernkurven bei OLMo 2

5. Kausale Analyse durch Vector Steering

Bedeutung und Fazit

Mehr davon

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis