VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

Dit paper introduceert VisNec, een framework dat de visuele noodzaak meet om multimodale instructie-tuning te optimaliseren door visueel overbodige of misgerichte data te filteren, wat resulteert in betere prestaties met aanzienlijk minder trainingsdata.

Mingkang Dong, Hongyi Cai, Jie Li, Sifan Zhou, Bin Ren, Kunyu Peng, Yuqian Fu

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme robot wilt leren om te kijken en te begrijpen wat hij ziet, net zoals een kind leert door te spelen. Dit proces heet "multimodale instructie-tuning". Maar er is een groot probleem: de boeken die we gebruiken om deze robot te leren zijn vol met rommel.

Soms staan er vragen in die je kunt beantwoorden zonder zelfs maar naar de foto te kijken (bijvoorbeeld: "Wat is de kleur van gras?" -> "Groen"). De robot leert dan niet echt te kijken, maar raadt gewoon op basis van woorden. Soms zijn de vragen en foto's zelfs tegenstrijdig (een foto van een binnenkamer met de vraag "Is dit buiten?"), wat de robot alleen maar verward maakt.

De auteurs van dit paper, VisNec, hebben een slimme oplossing bedacht. Ze hebben een nieuwe manier ontwikkeld om te meten of een foto echt nodig is om een vraag te beantwoorden.

Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. De "Blinddoek-test" (Het meten van VisNec)

Stel je voor dat je een leerling een vraag stelt over een foto.

  • Stap 1: Je doet een blinddoek voor zijn ogen en vraagt: "Wat zie je hier?" (Alleen tekst).
  • Stap 2: Je haalt de blinddoek eraf en vraagt hetzelfde: "Wat zie je hier?" (Tekst + Foto).

De VisNec-score is het verschil tussen hoe goed hij het doet met en zonder de foto.

  • Score is negatief (Mislukt): De foto maakt het slechter. De leerling raakt in de war door de foto. Dit is een slechte les (bijv. een verkeerde foto bij de tekst).
  • Score is nul (Overbodig): De leerling gaf hetzelfde antwoord met en zonder blinddoek. De foto was nutteloos; hij kon het antwoord al raden uit de tekst. Dit is een "vervelende" les die tijd kost.
  • Score is hoog (Essentieel): De leerling gaf een verkeerd antwoord met blinddoek, maar het juiste antwoord zodra hij de foto zag. Dit is de goudmijn! Dit is een les waar de foto écht nodig is.

2. De "Boekverkleiner" (Het selecteren van de beste lessen)

In plaats van de hele berg met boeken (miljoenen voorbeelden) te gebruiken, pakt VisNec alleen de "gouden" lessen eruit.

  • Ze gooien alle verwarrende en overbodige lessen weg.
  • Ze houden alleen de lessen over waarbij de foto het verschil maakt.

Maar wacht, er is nog een valkuil! Als je alleen de "moeilijkste" foto's kiest, krijg je misschien alleen maar foto's van geometrie en geen foto's van dieren. Daarom gebruiken ze een sorteermethode:

  • Ze verdelen de lessen in groepjes (bijv. "alles over dieren", "alles over gebouwen", "alles over tekst in foto's").
  • In elk groepje kiezen ze alleen de beste lessen (waar de foto het meest nodig is).

Zo krijg je een kleine, perfect samengestelde set lessen die alles dekt, maar veel kleiner is dan het origineel.

3. Het Resultaat: Minder werk, meer slimheid

Het mooie aan deze methode is dat je niet alles hoeft te doen.

  • In hun experimenten gebruikten ze slechts 15% van de oorspronkelijke data.
  • Het resultaat? De robot werd slimmer dan wanneer hij met 100% van de data had getraind.
  • Het was ook veel goedkoper en sneller, omdat ze minder tijd hoefden te besteden aan het "leren" van de robot.

Samenvattend

Stel je voor dat je een kok wilt leren koken.

  • De oude manier: Je geeft hem 10.000 recepten, waarvan 5.000 fout zijn en 3.000 recepten zijn voor gerechten die je gewoon kunt opeten zonder te koken. Hij wordt moe en leert niet goed.
  • De VisNec-methode: Je kijkt naar elk recept en vraagt: "Is dit recept echt nodig om dit gerecht te maken?" Je gooit de slechte en overbodige weg. Je houdt alleen de 1.500 beste, meest leerzame recepten over.
  • Het einde: De kok wordt sneller een meesterkok, met minder inspanning en minder rommel in zijn keuken.

VisNec is dus gewoon een slimme filter die zorgt dat onze AI-robots niet worden afgeleid door ruis, maar zich focussen op de momenten waar echt kijken en begrijpen nodig is.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →