A quantitative analysis of semantic information in deep representations of text and images

Dit artikel toont aan dat semantische informatie in diepe representaties van tekst en beelden convergeert over talen, modaliteiten en architecturen heen, waarbij de voorspellende kracht sterk varieert afhankelijk van de laagdiepte, modelgrootte en taal, en waarbij schaal mogelijk expliciete multimodale training overtreft.

Oorspronkelijke auteurs: Santiago Acevedo, Andrea Mascaretti, Riccardo Rende, Matéo Mahaut, Marco Baroni, Alessandro Laio

Gepubliceerd 2026-03-19
📖 5 min leestijd🧠 Diepgaand

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je twee vrienden hebt die een heel complex geheim delen. De ene vriend praat in het Nederlands, de andere in het Frans. Ze vertellen precies hetzelfde verhaal, maar met andere woorden. De vraag die deze wetenschappers zich stellen, is: Hoe zit dat geheim eigenlijk opgeslagen in hun hersenen (of in dit geval, in de computermodellen)?

In dit onderzoek kijken ze naar de "hersenen" van enorme kunstmatige intelligenties (AI-modellen) om te zien hoe ze betekenis verwerken. Hier is een simpele uitleg van wat ze hebben ontdekt, met wat leuke vergelijkingen.

1. De "Spiegel" van Betekenis

Stel je voor dat je een foto van een hond maakt en die foto in een spiegel houdt. De spiegel toont een afbeelding die er heel veel op lijkt, maar het is niet exact hetzelfde.

In de wereld van AI hebben verschillende modellen (zoals DeepSeek-V3 en Llama) allemaal hun eigen manier om een zin of een plaatje te "zien". De onderzoekers wilden weten: Hoe goed kan het ene model het andere "voorspellen"?

  • Als Model A een zin ziet, kan Model B dan precies raden wat Model A denkt?
  • Om dit te meten, gebruikten ze een slim meetinstrument genaamd "Information Imbalance". Denk hierbij aan een telefoonlijn: hoe minder statische ruis er op de lijn zit, hoe beter de twee modellen met elkaar communiceren.

2. De "Gouden Middenweg" in de AI

AI-modellen zijn opgebouwd uit lagen, net als een lasagne of een gebouw met veel verdiepingen.

  • De onderste lagen zijn als de fundering: daar zit de ruwe data (letters, pixels).
  • De bovenste lagen zijn als het dak: daar zit de uiteindelijke beslissing of output.
  • De middenlagen zijn de bewoonde verdiepingen.

De ontdekking: De onderzoekers vonden dat de "echte betekenis" van een zin of plaatje niet alleen bovenaan of onderaan zit, maar vooral in de middenlagen.

  • Het is alsof de betekenis van een verhaal niet in de eerste zin (de letters) of de laatste zin (het puntje) zit, maar in het hart van het verhaal.
  • In deze middenlagen zien de modellen van verschillende talen (bijv. Engels en Italiaans) er bijna hetzelfde uit. Het is alsof ze op die verdiepingen een gemeenschappelijke taal spreken die losstaat van de specifieke woorden die ze gebruiken.

3. Taal is niet altijd eerlijk (De "Engelse Dominantie")

Hoewel de modellen in het midden goed met elkaar overeenkomen, is er een groot verschil in wie de baas is: Het Engels.

  • Stel je voor dat Engels een rijke, goed uitgeruste bibliotheek is, en andere talen (zoals Hongaars) een wat kleinere bibliotheek.
  • Het bleek dat de Engelse versie van een zin beter kan voorspellen wat de andere taal denkt, dan andersom.
  • De Engelse "hersenen" zijn rijker aan informatie. Het is alsof de Engelse vertaler de andere talen perfect begrijpt, maar de andere vertalers soms moeite hebben om de nuances van het Engels volledig te vatten.

4. Grotere modellen zijn slimmer (Maat telt)

Ze vergeleken een gigantisch model (DeepSeek-V3) met een kleiner model (Llama).

  • Het grote model is als een universiteitsprofessor en het kleine model als een student.
  • De professor kan de gedachten van de student heel goed voorspellen, maar de student heeft moeite om de diepe gedachten van de professor te raden.
  • Hoe groter het model, hoe dichter de "middenlagen" bij elkaar komen. Het grote model heeft een duidelijkere, scherpere "gemeenschappelijke taal" ontwikkeld.

5. Tekst vs. Beeld: Hoe zien we de wereld?

Ze keken ook naar hoe modellen platen en teksten met elkaar verbinden.

  • Voor teksten (zoals DeepSeek): De betekenis zit in het midden van de "lasagne".
  • Voor plaatjes (zoals DinoV2): De betekenis zit juist bovenaan, in de laatste lagen.
  • De verrassing: Twee modellen die apart van elkaar zijn getraind (één voor tekst, één voor plaatjes), bleken elkaar beter te begrijpen dan een model dat speciaal is getraind om tekst en plaatjes samen te brengen (zoals CLIP).
  • De les: Het is alsof twee mensen die elk hun eigen vak hebben, elkaar beter begrijpen dan een paar dat gedwongen is om samen te werken, zolang ze maar groot genoeg en slim genoeg zijn. Grootte en kwaliteit lijken belangrijker dan het feit dat ze samen zijn getraind.

6. Woorden verspreiden zich

Een laatste interessante punt: waar zit de betekenis in een zin?

  • Veel mensen dachten: "De betekenis zit in het laatste woord."
  • Maar de onderzoekers vonden dat de betekenis verspreid ligt over veel woorden.
  • Het is alsof je een verhaal niet in één zin kunt samenvatten, maar dat je het hele verhaal moet lezen om de betekenis te vatten. Als je alle woorden in een zin "gemiddeld" neemt, krijg je de beste vertaling van de betekenis.

Conclusie

Kortom: AI-modellen, ongeacht of ze tekst of plaatjes zien, of in welke taal ze praten, ontwikkelen op een bepaalde manier een gemeenschappelijke "Platonische" taal in hun midden- of eindlagen. Maar deze taal is niet perfect eerlijk: Engels en grote modellen hebben de "sterkste" versie van deze taal, en ze spreken deze taal het beste in de diepere lagen van hun netwerk.

Het bewijst dat intelligentie, hoe complex ook, op een verrassend vergelijkbare manier werkt, zolang je maar op de juiste verdieping kijkt!

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →