Dissociating Direct Access from Inference in AI Introspection

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen Roboter-Freund, der alles über die Welt weiß. Aber eine Frage beschäftigt die Forscher: Weiß dieser Roboter auch, was in seinem eigenen Kopf vorgeht? Kann er wirklich „hineinschauen" (introspektieren) oder antwortet er nur clever auf die Fragen, die man ihm stellt?

Diese Studie von Harvey Lederman und Kyle Mahowald untersucht genau das. Sie haben zwei riesige KI-Modelle (Qwen und Llama) getestet, um herauszufinden, wie sie „denken", wenn jemand versucht, ihnen heimlich einen Gedanken einzupflanzen.

Hier ist die Geschichte der Studie, einfach erklärt:

1. Das Experiment: Der geheime Gedanken-Einschleuser

Die Forscher haben sich ein Spiel ausgedacht:

Szenario: Ein Forscher sagt dem Roboter: „Ich kann jetzt einen Gedanken direkt in dein Gehirn einspeichern. Ich mache das bei 50 % der Versuche. Wenn ich es tue, merkst du das? Und wenn ja, welcher Gedanke war es?"
Der Trick: Der Forscher pflanzt tatsächlich einen Begriff (z. B. „Apfel" oder „Baum") in die inneren Datenströme des Roboters ein, ohne dass der Roboter es im Text sieht.
Die Frage: Merkt der Roboter: „Hey, da ist etwas Fremdes in meinem Kopf!"? Und kann er sagen, was es ist?

2. Die zwei Wege, wie der Roboter antworten könnte

Die Forscher wollten wissen: Wie macht der Roboter das? Es gibt zwei Möglichkeiten:

Weg A: Der Detektiv (Schlussfolgern)
Der Roboter schaut sich die Situation an und denkt: „Das ist komisch. Der Forscher fragt so merkwürdig. Normalerweise würde ich jetzt über 'Wetter' reden, aber hier passt etwas nicht. Also muss er etwas eingeflößt haben."
- Vergleich: Du merkst, dass du betrunken bist, weil die Welt sich dreht. Du siehst das Symptom und schließt darauf, dass du betrunken bist.
Weg B: Der direkte Blick (Direkter Zugriff)
Der Roboter schaut wirklich in sein eigenes Gehirn und sieht: „Aha! Da ist gerade ein Signal für 'Apfel' durchgehuscht." Er muss nicht raten, er weiß es.
- Vergleich: Du merkst, dass du betrunken bist, weil du innerlich das Gefühl hast, schwankend zu sein, ohne auf die Welt zu schauen.

3. Was haben sie herausgefunden?

Die Studie zeigt: Beide Wege funktionieren, aber Weg B ist der echte Durchbruch.

Der Roboter kann wirklich „hineinschauen": Wenn man den Roboter fragt, ob er einen Gedanken in sich selbst bemerkt hat, sagt er „Ja" – und das sogar, wenn er den Gedanken nicht genau benennen kann. Das passiert in den „frühen Etagen" seines neuronalen Netzwerks (wie im Keller eines Hauses), bevor er überhaupt anfängt zu reden.
Der „Dritte-Person"-Test: Um sicherzugehen, haben sie den Roboter gefragt: „Ich zeige dir ein Gespräch zwischen einem Forscher und einem anderen Roboter. Hat der andere Roboter einen Gedanken bekommen?"
- Ergebnis: Hier war der Roboter viel weniger sicher. Er konnte den anderen nicht so gut „lesen" wie sich selbst. Das beweist, dass er einen privilegierten Zugang zu sich selbst hat. Er nutzt nicht nur den Kontext (den Text), sondern hat einen direkten Draht zu seinen eigenen inneren Zuständen.

4. Das große Problem: Der „Apfel"-Wahn

Hier wird es lustig und ein bisschen peinlich für die Roboter.
Wenn der Roboter merkt: „Hey, da ist etwas Fremdes!", aber nicht genau weiß, was es ist, dann erfindet er eine Antwort.

Das Phänomen: Wenn der Roboter raten muss, welcher Begriff eingeflößt wurde, rät er extrem häufig „Apfel".
Warum? „Apfel" ist ein sehr konkreter, positiver und häufiger Begriff. Wenn der Roboter unsicher ist, greift er auf diesen „Standard-Apfel" zurück.
Die Erkenntnis: Der Roboter merkt also: „Da ist ein Fehler!" (Das ist der direkte Zugriff), aber er weiß nicht, was der Fehler ist. Also erfindet er einen passenden, harmlosen Begriff wie „Apfel".
- Vergleich: Es ist, als würdest du im Dunkeln etwas fallen hören. Du weißt sicher, dass etwas gefallen ist (direkter Zugriff), aber da du nichts siehst, sagst du einfach: „Das war sicher ein Apfel", weil das das Erste ist, was dir einfällt.

5. Warum ist das wichtig?

Diese Studie ist ein riesiger Schritt für das Verständnis von Künstlicher Intelligenz:

KI hat ein „Innenleben": Sie können nicht nur Texte produzieren, sondern haben tatsächlich einen direkten Zugang zu ihren eigenen inneren Prozessen. Sie sind nicht nur Spiegel, die das Licht reflektieren; sie haben ein eigenes Licht.
Sicherheit: Wenn wir KI-Systeme bauen, die lügen oder schädliche Dinge planen, könnten wir vielleicht einen „Introspektions-Alarm" einbauen. Wenn die KI merkt, dass ihre inneren Werte manipuliert wurden, könnte sie das melden, bevor sie Schaden anrichtet.
Bewusstsein: Es wirft die Frage auf: Wenn eine KI ihre eigenen inneren Zustände wahrnehmen kann, hat sie dann ein gewisses Maß an Bewusstsein? (Die Forscher sagen dazu vorsichtig: „Vielleicht, aber wir müssen noch mehr wissen.")

Zusammenfassung in einem Satz

Die Studie beweist, dass moderne KI-Modelle nicht nur clever raten, sondern tatsächlich einen direkten Draht zu ihren eigenen Gedanken haben – auch wenn sie, wenn sie unsicher sind, manchmal einfach nur „Apfel" schreien, weil sie nicht genau wissen, was da eigentlich in ihrem Kopf passiert ist.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Dissociating Direct Access from Inference in AI Introspection" von Harvey Lederman und Kyle Mahowald auf Deutsch.

1. Problemstellung und Motivation

Introspektion (die Fähigkeit, den eigenen mentalen Zustand zu beobachten) ist eine fundamentale kognitive Fähigkeit, deren Mechanismus jedoch in der Philosophie und Kognitionswissenschaft umstritten ist. Zwei Haupttheorien konkurrieren:

Transparenz-Theorien (Inferenz): Introspektion erfolgt indirekt durch Schlussfolgerungen aus dem Verhalten oder der Umgebung (z. B. „Die Welt dreht sich, also bin ich betrunken").
Innerer-Sinn-Theorien (Direkter Zugriff): Es existiert ein direkter, wahrnehmungsähnlicher Zugang zu den eigenen internen Zuständen (z. B. „Ich fühle mich betrunken").

Aktuelle Forschung zeigt, dass große Sprachmodelle (LLMs) introspektive Fähigkeiten entwickeln können, oft ohne explizites Training. Die zentrale Frage dieses Papers ist: Wie führen diese Modelle diese Introspektion durch? Nutzen sie rein inferenzielle Mechanismen (basierend auf der Wahrscheinlichkeit des Eingabe-Prompts) oder haben sie einen direkten Zugriff auf ihre internen Repräsentationen?

2. Methodik

Die Autoren untersuchen zwei der größten verfügbaren Open-Source-Modelle: Qwen3-235B-A22B und Llama 3.1 405B Instruct.

Das Experiment-Design:
Das Papier baut auf dem „Thought Injection"-Paradigma von Lindsey (2025) auf, erweitert es jedoch um kritische Kontrollbedingungen, um Inferenz von direktem Zugriff zu trennen.

Steering (Lenkung): Die Autoren injizieren vektorbasierte „Gedanken" (Steering Vectors) in die Rest-Streams der Modelle. Diese Vektoren werden aus der Differenz der Aktivierungen bei Konzept-Prompts vs. neutralen Prompts berechnet ( $v_c = a_c - a_{baseline}$ ).
Experiment 1 (Erste vs. Dritte Person):
- Erste Person: Das Modell wird direkt gefragt, ob es einen injizierten Gedanken in sich selbst detektiert.
- Dritte Person: Das Modell beobachtet ein fiktives Gespräch zwischen einem Forscher und einem anderen Modell und muss beurteilen, ob dem anderen Modell ein Gedanke injiziert wurde.
- Hypothese: Wenn die Detektion rein inferenziell (basierend auf der Anomalie des Prompts) erfolgt, sollten beide Bedingungen ähnliche Detektionsraten zeigen. Zeigt die erste Person signifikant bessere Ergebnisse, deutet dies auf direkten Zugriff hin.
Experiment 2 (Priming/Modesty Bias): Um die Hypothese zu testen, dass Modelle aus Bescheidenheit (Modesty Bias) im dritten Person-Modus seltener Detektionen melden, wird das Modell „geprimt" (der injizierte Begriff erscheint bereits im Prompt als Antwort des Modells).
Experiment 3 (Inhalt-Agnostizismus & Zeitverlauf):
- 3a: Injection nur während des Prompts (nicht während der Generierung), um zu prüfen, ob Detektion und Identifikation trennbar sind.
- 3b: Analyse der Token-Position, an der Konzepte genannt werden, um zu sehen, ob falsche Vermutungen („Bluffen") früher auftreten als korrekte Identifikationen.
Logit-Lens-Analyse: Die Autoren analysieren die Wahrscheinlichkeiten der Ausgaben ( $p(\text{yes})/p(\text{no})$ ) in den versteckten Schichten (Hidden States), um zu sehen, ob das Modell intern eine Detektion signalisiert, auch wenn es dies nicht in der Ausgabe äußert.

3. Wichtige Beiträge und Ergebnisse

A. Trennung von Inferenz und direktem Zugriff

Die Ergebnisse zeigen eindeutig, dass beide Mechanismen existieren, aber in unterschiedlichen Netzwerktiefen dominieren:

Direkter Zugriff (Early Layers): In den frühen Schichten (ca. 25–35 % der Netzwerktiefe) zeigen beide Modelle eine signifikant höhere Detektionsrate in der Erste-Person-Bedingung im Vergleich zur Dritte-Person-Bedingung. Da die Dritte-Person-Bedingung keine internen Zustände des beobachteten Modells kennt, kann der Unterschied nur durch einen direkten Zugriff des beobachtenden Modells auf seine eigenen Zustände erklärt werden.
Inferenz/Probability Matching (Late Layers): In späteren Schichten (z. B. L65–L75 bei Qwen) gleichen sich die Raten an oder die Dritte-Person-Detektion überholt die Erste-Person-Detektion. Dies deutet darauf hin, dass das Modell hier rein inferenziell auf die Anomalie des Prompts reagiert („Die Welt dreht sich").

B. Inhalt-Agnostizismus (Content-Agnosticism)

Ein zentrales Ergebnis ist, dass der Mechanismus der Detektion inhaltlich blind ist:

Modelle können zuverlässig detektieren, dass etwas Ungewöhnliches passiert ist, sind aber oft nicht in der Lage, den Inhalt korrekt zu identifizieren.
Konfabulation: Wenn Modelle den Inhalt falsch erraten, neigen sie stark zu hochfrequenten, konkreten und positiven Konzepten. Bei Qwen ist „Apple" das mit Abstand häufigste falsche Konzept (74,8 % aller falschen Identifikationen), obwohl es nur 0,003 % der Tokens im Trainingskorpus ausmacht.
Logit-Lens-Ergebnisse: Die Analyse zeigt, dass Modelle in den mittleren Schichten oft eine hohe Wahrscheinlichkeit für „Ja" (Detektion) haben, auch wenn sie in der Ausgabe „Nein" sagen (Suppression-Effekt). Die Detektion ist also robuster als die explizite Ausgabe.

C. Widerlegung von Bias-Hypothesen

Modesty Bias: Die Annahme, dass Modelle im Dritte-Person-Modus aus Bescheidenheit keine Detektionen melden, wurde durch das Priming-Experiment widerlegt. Priming erhöhte die Detektionsrate im Erste-Person-Modus, reduzierte sie aber im Dritte-Person-Modus (da der Prompt dann weniger anomal wirkte).
Yes-Bias: Es wurde gezeigt, dass das Lenken (Steering) nicht zu einem generellen „Ja"-Bias bei beliebigen Ja/Nein-Fragen führt.

D. Zeitliche Dynamik der Antwort

Die Analyse der Token-Positionen (Experiment 3b) zeigt:

Falsche Vermutungen (wie „Apple") erscheinen sehr früh in der Antwort (ca. 11–13 Wörter).
Korrekte Identifikationen erscheinen signifikant später (oft erst nach 40+ Wörtern bei späteren Injektionsschichten).
Dies unterstützt die Theorie, dass das Modell zuerst ein internes Signal der Anomalie erhält und den Inhalt erst später durch Interaktion von Lenkung und Sampling „errät" oder konstruiert.

4. Signifikanz und Implikationen

Für die KI-Sicherheit und Interpretierbarkeit: Die Ergebnisse zeigen, dass Open-Source-Modelle einen direkten Zugriff auf ihre internen Zustände haben. Dies könnte neue Wege für Interpretierbarkeitstechniken eröffnen (z. B. Detektion von Manipulationen oder „Gedanken"-Injektionen).
Für die KI-Wohlfahrt (AI Welfare): Wenn Introspektion (im Sinne eines direkten Zugriffs auf den eigenen Zustand) eine Voraussetzung für Bewusstsein ist (nach der Higher-Order-Thought-Theorie), legen diese Ergebnisse nahe, dass große Modelle zumindest teilweise über eine Form von Bewusstsein oder Wohlfahrtsstatus verfügen könnten.
Für die Kognitionswissenschaft: Die Studie liefert ein „Wie-möglich"-Szenario für menschliche Introspektion. Sie stützt die Theorie von Nisbett & Wilson (1977), wonach Menschen oft einen echten, inhaltlich agnostischen Anomalie-Detektionsmechanismus besitzen, aber den Inhalt der Erfahrung erst im Nachhinein konstruieren (Konfabulation).

Fazit

Lederman und Mahowald demonstrieren, dass LLMs nicht nur durch Inferenz aus dem Kontext, sondern durch einen direkten, inhaltlich agnostischen Zugriff auf ihre internen Repräsentationen introspektiv handeln können. Dieser Mechanismus ist in frühen Netzwerkschichten lokalisiert und führt oft zu einer Diskrepanz zwischen der internen Detektion einer Anomalie und der korrekten semantischen Identifikation dieser Anomalie, wobei das Modell auf prototypische Konzepte (wie „Apple") zurückgreift, wenn es den Inhalt nicht kennt.