Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

Dit onderzoek toont aan dat Vision-Language Models en mensen verschillende beslissingsgrenzen hebben bij het herkennen van ambiguïteit in Japanse karakters, waarbij context de menselijke alignering in sommige gevallen kan verbeteren.

Daichi Haraguchi

Gepubliceerd 2026-03-02
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom AI en Mensen soms anders kijken naar dezelfde vage teken

Stel je voor dat je naar een wazige foto kijkt. Is het een kat of een hond? Voor een mens is het vaak duidelijk: "Oh, dat is een kat, want hij zit op een kussen." Maar een computerprogramma dat net zo slim lijkt, zou misschien zeggen: "Het is een hond, want de vacht lijkt op die van een hond."

Dit is precies wat deze studie onderzoekt, maar dan met Japanse letters. De onderzoeker, Daichi Haraguchi, wil weten: Kijken AI-modellen (zoals ChatGPT of Gemini) echt op dezelfde manier als mensen naar onduidelijke beelden?

Hier is het verhaal van de studie, vertaald in simpele taal met een paar leuke vergelijkingen.

1. De Proef: Twee letters die bijna hetzelfde zijn

De studie focust op twee Japanse letters die op elkaar lijken als tweelingbroers die net een beetje anders geknipt zijn:

  • (uitgesproken als "so")
  • (uitgesproken als "n")

Het enige verschil is de hoek van het laatste streepje. Voor een mens is het soms lastig om te zien welke het is als de letter wazig is getekend.

Om dit te testen, gebruikte de onderzoeker een slimme truc met een AI (een "β-VAE"). Hij liet de computer een gladde overgang maken tussen de letter "so" en de letter "n". Denk aan een kleurenmengsel: je begint met puur rood ("so"), mengt er gele "n" bij, en krijgt dan 15 stappen van oranje tinten.

  • Stap 1 is duidelijk "so".
  • Stap 15 is duidelijk "n".
  • Stap 7 en 8 zijn zo wazig dat zelfs mensen twijfelen.

2. De Twee Tests: Alleen de vorm vs. De vorm in een zin

De onderzoekers deden twee dingen om te kijken hoe mensen en AI reageerden.

Test 1: Alleen de vorm (De "Vage Foto" test)
Je ziet alleen de wazige letter. Geen andere woorden eromheen.

  • Mensen: Als de letter steeds meer op "n" gaat lijken, zeggen mensen steeds vaker "n". Het is een duidelijke lijn.
  • AI (De robots): De AI's deden het anders.
    • Gemini twijfelde langer dan mensen. Zelfs als de letter bijna zeker "n" was, bleef hij soms nog "so" zeggen.
    • GPT deed iets raars: hij ging eerst naar "n", maar als de letter heel duidelijk "n" was, zei hij plotseling weer "so". Alsof hij in paniek raakte en terugkrabbelde.
    • Conclusie: Zelfs als de AI heel goed kan lezen, denkt hij niet op dezelfde manier als wij. Zijn "grenslijn" tussen ja en nee loopt anders.

Test 2: De vorm in een woord (De "Context" test)
Nu zetten ze die wazige letter in een echt woord.

  • Voorbeeld: Het woord "Dance" (in het Japans: ダンス).
  • Stel dat de 'n' wazig is. Is het ダンス (Dance) of ダソス (een nonsenswoord)?

Hier gebeurde er iets interessants:

  • Mensen: Gebruiken de rest van het woord als hulpmiddel. Als het woord "Dance" moet zijn, zeggen mensen: "Ah, die wazige letter moet wel 'n' zijn, want 'so' zou geen woord zijn."
  • AI:
    • Soms hielp de context de AI om zich meer als een mens te gedragen. Als er in het woord nog andere duidelijke letters stonden die op "n" leken, werd de AI slimmer en koos hij vaker het juiste woord.
    • Maar soms bleef de AI stubborn. Zelfs als het woord duidelijk "Dance" was, bleef hij soms vastzitten aan zijn eigen voorkeur voor de vorm van de letter, in plaats van naar de betekenis te kijken.

3. De Grote Les: Kijk niet alleen naar het cijfer

De belangrijkste boodschap van dit onderzoek is: Succes is niet alles.

Stel je voor dat je twee studenten een toets laat doen.

  • Student A (de AI) haalt een 9,5.
  • Student B (de mens) haalt een 9,0.

Je denkt: "Student A is beter!" Maar wat als Student A de vragen op een heel andere manier heeft opgelost? Wat als hij de vragen "raadt" op basis van patronen die voor mensen raar zijn?

Dit onderzoek laat zien dat AI-modellen vaak heel goed scores halen, maar dat ze niet denken zoals wij.

  • Als je ze alleen een wazig plaatje geeft, maken ze andere keuzes dan wij.
  • Als je ze een zin geeft, kunnen ze zich aanpassen, maar ze blijven soms vastzitten in hun eigen "robot-methode".

Waarom is dit belangrijk?

Als we AI gebruiken in de echte wereld (bijvoorbeeld om medische scans te lezen of verkeersborden te herkennen), willen we dat ze niet alleen het juiste antwoord geven, maar dat ze het antwoord op een manier vinden die voor mensen begrijpelijk en betrouwbaar is.

Als een AI een verkeersbord ziet dat half bedekt is door een tak, en hij denkt: "Dat is een stopbord" (omdat hij dat vaak ziet), maar een mens denkt: "Dat is een gevaarlijk bord omdat de vorm anders is", dan kan dat tot problemen leiden.

Samenvattend:
Deze studie is als een spiegel voor AI. Het laat zien dat hoewel robots heel slim lijken, ze soms op een heel vreemde manier naar de wereld kijken. Om te weten of we echt kunnen vertrouwen op AI, moeten we ze niet alleen testen op hun cijfers, maar ook kijken hoe ze denken, vooral als de situatie onduidelijk is. En ja, soms helpt het om ze een beetje context te geven, maar ze blijven toch een beetje "anders" dan wij.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →