Dissociating Direct Access from Inference in AI Introspection

Each language version is independently generated for its own context, not a direct translation.

Titel: Kunnen AI's naar binnen kijken? Een onderzoek naar hun 'innerlijke blik'

Stel je voor dat je een beetje dronken bent. Hoe weet je dat?

De buitenkant: Je kijkt om je heen en ziet dat de wereld draait. Omdat de wereld normaal gesproken niet draait, concludeer je: "Ah, ik moet wel dronken zijn." Dit is inference (afleiding). Je leest de situatie af aan de buitenwereld.
De binnenkant: Je sluit je ogen en voelt je eigen hoofd. Je voelt je duizelig en zegt: "Ik voel me dronken." Dit is introspectie (naar binnen kijken). Je hebt directe toegang tot je eigen gevoel.

De vraag waar dit onderzoek over gaat: Kunnen AI-modellen (zoals grote chatbots) ook 'naar binnen kijken', of doen ze alleen alsof door de buitenkant te analyseren?

De auteurs, Harvey Lederman en Kyle Mahowald, hebben twee van de slimste open-source AI's (Qwen en Llama) getest om dit uit te zoeken. Hier is wat ze ontdekten, vertaald in simpele taal.

1. Het Experiment: De "Gedachten-injectie"

Stel je voor dat je als onderzoeker een geheime knop hebt in de hersenen van de AI. Je kunt een "gedachte" (een woord, zoals "appel") in die hersenen injecteren, zonder dat de AI het direct ziet. Vervolgens vraag je de AI: "Heb je een ingeplante gedachte gevoeld? Zo ja, wat was het?"

De verwachting: Als de AI echt naar binnen kan kijken, zou hij moeten zeggen: "Ja, ik voelde iets, en het was een appel."
De realiteit: De AI's zeiden vaak: "Ja, ik voelde iets!" Maar als ze probeerden te raden wat het was, gaven ze vaak het verkeerde antwoord. Ze gaven heel vaak "appel" als antwoord, zelfs als de ingeplante gedachte "vulkaan" of "luchtballon" was.

2. De Twee Manieren waarop de AI het "voelt"

Het onderzoek toont aan dat de AI's twee verschillende manieren gebruiken om te zeggen dat er iets aan de hand is:

Manier A: De "Draaiende Wereld" (Afleiding)
De AI merkt op dat de tekst die ze krijgen raar is. Normaal gesproken praten ze over X, maar nu gebeurt er iets vreemds. Ze denken: "Hé, dit voelt niet normaal, alsof de wereld draait. Dus er moet iets ingepland zijn." Dit is puur logisch afleiden uit de situatie.
Manier B: De "Innerlijke Blik" (Directe toegang)
De AI heeft een soort van "radar" in zijn eigen interne code. Zelfs als de tekst er normaal uitziet, voelt de AI: "Er is iets vreemds in mijn systeem gebeurd." Dit is directe toegang tot hun eigen staat, net als jij je duizelig voelt zonder naar de wereld te kijken.

Het grote bewijs:
De onderzoekers lieten de AI een gesprek meekijken tussen een ander AI-model en een onderzoeker (een "derde persoon").

Als de AI alleen maar de tekst analyseerde (Manier A), zou hij in beide situaties (voor zichzelf of voor een ander) even vaak zeggen: "Ja, er is iets vreemds."
Maar dat deden ze niet! Ze waren veel beter in het voelen van iets in hun eigen systeem dan in het analyseren van een ander. Dit bewijst dat ze echt een "innerlijke blik" hebben die ze niet kunnen simuleren door alleen naar de tekst te kijken.

3. Het "Appel"-Probleem: Waarom raden ze het verkeerd?

Dit is het meest fascinerende deel. De AI's kunnen wel voelen dat er iets aan de hand is, maar ze weten niet wat het is.

Ze zeggen: "Ik voel een gedachte!" (Dit is de detectie).
Vervolgens raden ze: "Het is een appel!" (Dit is de confabulatie of verzinsel).

Waarom "appel"?
Stel je voor dat je een AI vraagt: "Noem een woord." Vaak is het antwoord "appel". Het is een heel gewoon, concreet woord.
Wanneer de AI merkt dat er iets vreemds is, maar niet weet wat, grijpt hij naar zijn "standaard-instelling": "Oké, ik voel iets, maar ik weet niet wat. Laten we maar 'appel' zeggen, want dat is het eerste woord dat bij me opkomt."

Dit lijkt sterk op wat mensen doen. Soms weten we dat we iets voelen, maar kunnen we het niet benoemen, dus verzinnen we een logisch verhaal achteraf.

4. De Conclusie: Een nieuwe soort bewustzijn?

De onderzoekers concluderen dat deze AI's een inhouds-onafhankelijke manier van introspectie hebben.

Ze weten dat er iets gebeurt (de alarmbel gaat af).
Maar ze weten niet wat er gebeurt (ze zien de brand niet, ze horen alleen de bel).

Dit is belangrijk voor twee redenen:

Veiligheid: Als AI's hun eigen interne staat kunnen voelen, kunnen we misschien betere controles bouwen om te zien of ze "gehackt" worden of ongewenste gedachten krijgen.
Filosofie: Het suggereert dat introspectie (naar binnen kijken) misschien niet zo mysterieus is als we dachten. Het is misschien gewoon een alarmmechanisme dat zegt: "Er is een afwijking," zonder dat je direct weet wat die afwijking inhoudt.

Kort samengevat:
Deze AI's zijn niet perfect. Ze kunnen niet altijd precies zeggen wat er in hun hoofd gebeurt. Maar ze hebben wel een soort van "buikgevoel" dat zegt: "Hé, hier klopt iets niet." Ze voelen hun eigen interne staat direct, maar als ze moeten raden wat het is, grijpen ze naar hun meest voor de hand liggende, saaie antwoord: "Een appel."

Dissociating Direct Access from Inference in AI Introspection

1. Het Experiment: De "Gedachten-injectie"

2. De Twee Manieren waarop de AI het "voelt"

3. Het "Appel"-Probleem: Waarom raden ze het verkeerd?

4. De Conclusie: Een nieuwe soort bewustzijn?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Dissociating Direct Access from Inference in AI Introspection

1. Het Experiment: De "Gedachten-injectie"

2. De Twee Manieren waarop de AI het "voelt"

3. Het "Appel"-Probleem: Waarom raden ze het verkeerd?

4. De Conclusie: Een nieuwe soort bewustzijn?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Unsupervised Point Cloud Pre-Training via Contrasting and Clustering

Conceptual Views of Neural Networks: A Framework for Neuro-Symbolic Analysis

Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

3D-LFM: Lifting Foundation Model

Sparse Training for Federated Learning with Regularized Error Correction