Can VLMs Reason Robustly? A Neuro-Symbolic Investigation

Dit artikel introduceert VLC, een neuro-symbolische methode die visuele conceptherkenning koppelt aan symbolische circuitredenering om robuustheid van visueel-taalmodellen onder covariatenverschuivingen te waarborgen, in tegenstelling tot traditionele eind-tot-eind training die faalt bij generalisatie.

Weixin Chen, Antonio Vergari, Han Zhao

Gepubliceerd 2026-03-26
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Kunnen slimme computers echt nadenken? Een onderzoek naar visuele redenering

Stel je voor dat je een zeer slimme assistent hebt die foto's kan bekijken en vragen kan beantwoorden. Dit noemen we een VLM (Vision-Language Model). Deze modellen zijn geweldig in het herkennen van dingen: ze kunnen zien dat er een hond op een foto staat, of dat er een cijfer '7' op een bordje staat.

Maar de onderzoekers van dit paper stelden zich een lastige vraag: Kunnen deze modellen ook echt nadenken als de situatie verandert?

Het Probleem: De "Truc" van het Leren

Stel je voor dat je een kind leert optellen. Je laat het kind telkens twee getallen optellen die je op een bord schrijft. Als je alleen maar oefent met kleine getallen (bijvoorbeeld 2 + 3), leert het kind misschien niet de regel van optellen, maar onthoudt het alleen de specifieke voorbeelden.

Als je het kind dan plotseling vraagt om 200 + 300 op te tellen, faalt het. Het heeft de "truc" van het optellen niet echt begrepen; het heeft alleen de patronen van de kleine oefeningen onthouden.

Dit is wat er gebeurt met de huidige AI-modellen:

  1. Ze worden getraind op een specifieke set foto's (bijvoorbeeld foto's met 3 cijfers).
  2. Ze scoren perfect op die foto's.
  3. Maar als je ze een foto geeft met 7 cijfers (een nieuwe situatie), zakken ze door de bodem. Ze hebben de onderliggende logica niet echt "geleerd", ze hebben alleen de statistieken van de training onthouden.

De Oplossing: Het "Neuro-Symbolische" Team

De onderzoekers bedachten een nieuwe aanpak, genaamd VLC. Ze vergelijken dit met het samenstellen van een perfect team voor een moeilijke klus, in plaats van één superheld te gebruiken die alles moet doen.

Het team bestaat uit twee personen:

  1. De Waarnemer (De VLM):

    • Rol: Deze persoon is een expert in het kijken. Hij kijkt naar de foto en zegt: "Ik zie een rode cirkel, een blauwe vierkant en het cijfer 5."
    • Sterkte: Hij is fantastisch in het herkennen van objecten, zelfs als de foto er anders uitziet dan normaal.
  2. De Logica-Meester (Het Circuit):

    • Rol: Dit is geen mens, maar een strikte, onfeilbare rekenmachine met een boekje met regels. Het boekje zegt bijvoorbeeld: "Als alle vormen hetzelfde zijn, dan is het antwoord 'Ja'."
    • Sterkte: Deze persoon maakt nooit fouten in de logica. Hij volgt de regels exact, net als een computerprogramma.

Hoe werkt het samen?
De Waarnemer kijkt naar de foto en vertelt de Logica-Meester wat hij ziet. De Logica-Meester pakt die informatie, leest zijn strikte regelsboekje en geeft het juiste antwoord. Omdat de regels in het boekje vaststaan, maakt het niet uit of de foto nu 3 of 7 objecten heeft; de logica blijft hetzelfde.

Wat hebben ze ontdekt?

De onderzoekers hebben dit getest met drie soorten puzzels:

  • Optellen: Twee rijen cijfers optellen.
  • Logica (XOR): Een reeks enen en nullen door elkaar halen.
  • Relaties: Kijken of alle vormen van dezelfde kleur zijn.

De resultaten waren duidelijk:

  • De oude modellen (die alles zelf probeerden te leren) faalden volledig als de foto's veranderden. Ze probeerden te raden, maar wisten de regel niet.
  • Andere moderne methoden (waarbij een AI een programma schrijft om de taak op te lossen) waren soms goed, maar vaak onbetrouwbaar. Soms schreef de AI een foutief programma, of een andere AI maakte een fout bij het herkennen van de objecten.
  • VLC (Het Team) was de winnaar. Omdat ze de "nadenk-regels" expliciet in het boekje (het circuit) hadden gezet, konden ze elke puzzel oplossen, ongeacht hoe groot of complex de foto was.

De Grootste Les

De kernboodschap van dit paper is: Grote AI-modellen zijn geweldig in het zien, maar niet per se in het nadenken.

Als je wilt dat een AI echt slim is en niet alleen maar patronen onthoudt, moet je de "kijken" en het "nadenken" uit elkaar halen. Laat de AI kijken, en laat een strikt logisch systeem de regels toepassen. Op die manier wordt de AI robuust: hij faalt niet als de situatie verandert, omdat hij de fundamentele regels van de wereld begrijpt, in plaats van alleen de training te kennen.

Kortom: Geef de computer een bril om goed te kijken, en geef hem een strikt rekenboekje om de regels te volgen. Dan krijg je een systeem dat echt kan redeneren.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →