How Do Inpainting Artifacts Propagate to Language?

Dit onderzoek analyseert hoe visuele artefacten veroorzaakt door inpainting de taalgeneratie in vision-language modellen beïnvloeden, en biedt een diagnostisch raamwerk om de relatie tussen reconstructiekwaliteit en de semantische en lexische kwaliteit van gegenereerde bijschriften te onderzoeken.

Pratham Yashwante, Davit Abrahamyan, Shresth Grover, Sukruth Rao

Gepubliceerd 2026-02-25
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een schilderij hebt dat een deel mist. Je vraagt een slimme kunstenaar (een AI) om dat gat in te vullen. De kunstenaar doet zijn best: hij gebruikt dezelfde kleuren en stijl, en het gat lijkt perfect opgevuld. Het oog ziet geen verschil.

Maar wat als die kunstenaar, terwijl hij het gat vult, per ongeluk een rode auto schildert in plaats van de blauwe auto die er oorspronkelijk stond? Of wat als hij een koe tekent waar eigenlijk een paard stond?

Voor een mens is het misschien nog net te zien, maar voor een andere AI die dit schilderij moet beschrijven, is het een ramp. Die tweede AI denkt: "O, ik zie een rode auto!" en schrijft dat op, terwijl het eigenlijk een blauwe auto was.

Dit is precies waar dit onderzoek over gaat. De auteurs van dit paper (van de Universiteit van San Diego) hebben onderzocht hoe foutjes in het "inpainten" (het invullen van ontbrekende delen van een afbeelding) doorwerken in de tekst die een computer gegenereerd.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Onzichtbare Leugen"

In de wereld van kunstmatige intelligentie werken systemen vaak in twee stappen:

  1. De Restaurator: Een AI kijkt naar een beschadigde foto en vult de gaten in met een nieuwe AI (die op "diffusie" werkt, een soort digitale verf).
  2. De Verteller: Een tweede AI kijkt naar de gerestaureerde foto en schrijft een beschrijving (een bijschrift) erbij.

Het probleem is dat de "Restaurator" zo goed is in het maken van een plaatje dat er lekker uitziet, dat hij soms de betekenis verandert. Hij vervangt een object door iets anders dat er visueel op lijkt, maar semantisch (qua betekenis) totaal anders is. Omdat de "Verteller" niet weet dat er iets is ingevuld, gelooft hij wat hij ziet en schrijft hij een onjuiste beschrijving op.

De Analogie: Stel je voor dat je een brief leest die door een vertaler is vertaald, maar de vertaler heeft per ongeluk een woord veranderd in een synoniem dat in deze context de betekenis van de hele zin omkeert. De lezer denkt: "Wat een mooie zin!", terwijl de zin eigenlijk een leugen is.

2. Wat hebben ze ontdekt?

De onderzoekers hebben dit systematisch getest met verschillende foto's (van mensen, dieren, tot medische röntgenfoto's) en verschillende manieren om de gaten te vullen.

  • Hoe beter de foto, hoe beter de tekst: Als de ingevulde foto er visueel perfect uitziet (minder ruis, scherpere lijnen), dan is de beschrijving die de AI schrijft ook veel nauwkeuriger.
  • Niet alle meetlatjes werken: Er zijn verschillende manieren om de kwaliteit van een foto te meten. De onderzoekers ontdekten dat de standaardmaten voor "structuur" (hoeveel lijnen er overeenkomen) niet genoeg zijn. Wat echt telt, is de perceptuele kwaliteit: hoe "echt" voelt het voor het oog? Als dat goed is, is de tekst ook goed.
  • De "Harde" randen zijn slecht: Als je een gat maakt met een harde, vierkante rand (alsof je een stuk papier hebt weggescheurd), maakt de AI meer fouten dan als je het gat zachtjes vervaagt (zoals een wazige vlek). De harde randen verwarren de AI meer.

3. Wat gebeurt er in het "brein" van de AI?

De onderzoekers keken ook naar hoe de AI intern denkt (de "aandachtspunten").

  • De diepe lagen raken in de war: De AI heeft verschillende lagen in zijn netwerk (zoals lagen in een cake). De bovenste lagen (die de "hoofdgedachte" vormen) raken het meest in de war door de ingevulde fouten.
  • Het is lokaal: De verwarring zit vooral in het gebied dat is ingevuld. De AI kijkt niet naar de hele foto, maar raakt specifiek in de war over het stukje dat is gereconstrueerd.

De Analogie: Stel je voor dat je een verhaal hoort waarbij iemand een stuk van de tekst voorleest dat hij zelf heeft verzonnen. Jij (de AI) luistert naar dat stukje en denkt: "Oh, dat is een leugen!" en je hele verhaal wordt daardoor gekleurd. De rest van de tekst is nog steeds waar, maar dat ene stukje verpest de hele samenvatting.

4. Waarom is dit belangrijk?

Vroeger dachten we: "Als de foto er goed uitziet, is de AI tevreden." Dit paper zegt: "Nee, dat is niet waar."

Zelfs als de foto er perfect uitziet voor een mens, kan de AI er toch een foute conclusie uit trekken. Dit is gevaarlijk in situaties waar precisie telt, zoals:

  • Medische beeldvorming: Als een AI een röntgenfoto "herstelt" en een tumor verandert in een normale structuur, kan de diagnose volledig verkeerd zijn.
  • Veiligheid: Als een camera een ongeluk "herstelt" en de auto verandert in een vrachtwagen, kan een zelfrijdende auto verkeerd reageren.

Conclusie

De boodschap van dit onderzoek is simpel maar krachtig: Kwaliteit van beeldherstel is direct gekoppeld aan de kwaliteit van taal.

Als je een AI wilt gebruiken om een beschrijving te geven van een foto, moet je eerst zorgen dat de foto niet "op de schop" is gegaan met een slechte AI. Anders gaat de AI een verhaal vertellen dat klinkt als een leugen, zelfs als het plaatje er mooi uitziet.

Het is alsof je een vertaler vraagt om een boek te vertalen, maar je geeft hem een boek waarvan de helft is weggeveegd en door een ander is ingevuld. Zelfs als de nieuwe tekst er mooi uitziet, is de vertaling die hij maakt waarschijnlijk onbetrouwbaar.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →