Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Dit artikel introduceert een nieuwe aanvalsmethode op multimodale grote taalmodellen die door het maximaliseren van numerieke instabiliteit tijdens de inferentie aanzienlijke prestatieverminderingen veroorzaakt, zelfs bij minimale beeldwijzigingen die door traditionele adversariële perturbaties niet worden gedekt.

Wai Tuck Wong, Jun Sun, Arunesh Sinha

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: De Onzichtbare Kracht die Slimme Computers laat Struikelen

Stel je voor dat je een superintelligente robot hebt die niet alleen tekst kan lezen, maar ook foto's kan zien en begrijpen. Dit zijn de Multimodale Grootte Taalmodellen (zoals LLaVA of Idefics). Ze worden gebruikt voor van alles: van het schrijven van verhalen tot het analyseren medische scans. Ze lijken onfeilbaar, maar onderzoekers hebben ontdekt dat ze een heel specifieke, verborgen zwakheid hebben.

Deze paper, getiteld "Induced Numerical Instability", legt uit hoe je deze robots kunt laten falen zonder dat ze er iets van merken. Het is alsof je een toverstafje gebruikt dat de binnenkant van hun brein een beetje 'wazig' maakt.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Rekenfouten" van de Computer

Computers werken niet met oneindig nauwkeurige getallen zoals wij in de wiskunde. Ze gebruiken een soort "afgeronde" versie van getallen om snelheid en geheugen te besparen.

  • De Analogie: Stel je voor dat je een bak met honderden kleine blokjes hebt. Om de bak niet te zwaar te maken, vervang je de zware, precieze blokjes door lichtere, iets minder precieze blokjes. Voor de meeste taken maakt dit niet uit. Maar als je heel precies moet bouwen, kunnen die kleine verschillen in gewicht ervoor zorgen dat de hele toren scheef gaat staan.

In de paper noemen ze dit Numerieke Instabiliteit. Het is alsof de computer in een kamer loopt waar de vloerplanken net iets te hoog of te laag zijn. Als je rustig loopt, valt het niet op. Maar als je precies op de slechte plek stapt, struikel je.

2. De Aanval: Geen Ruis, maar een "Wazige Spiegel"

Normale hackers proberen vaak een foto te veranderen met ruis (zoals statische ruis op een oude TV) zodat de computer iets anders ziet. Dit is als een schilderij besmeuren met verf.

De methode in dit onderzoek is anders. Ze veranderen de foto niet visueel. De foto ziet er voor het menselijk oog exact hetzelfde uit. Maar ze manipuleren de cijfers die de computer gebruikt om die foto te lezen.

  • De Analogie: Stel je voor dat je een spiegel hebt. Normaal gesproken zie je je eigen gezicht. De hacker verandert de spiegel niet visueel, maar hij verandert de chemische samenstelling van het glas op microscopisch niveau. Voor jou zie je nog steeds je gezicht, maar voor de computer die door de spiegel kijkt, is het beeld nu een beetje vervormd door de "chemische onnauwkeurigheid".

Ze gebruiken een speciale formule (een "verliesfunctie") om precies die cijfers te vinden die de computer het meest in de war brengen. Ze zoeken de "zwakke plek" in de vloerplanken.

3. Het Resultaat: De Robot Raakt de Draad Kwijt

Wanneer ze deze "wazige" foto's aan de slimme robots geven, gebeurt er iets vreemds:

  • De robot ziet een foto van een meisje met een handdoek, maar zegt: "Een man in een paars shirt vecht met een andere man."
  • De robot ziet een taart, maar zegt: "Een bord met een biefstuk en groenten."
  • De robot ziet een stad, maar zegt: "Newark" in plaats van "Burnaby".

De foto's zijn voor ons bijna identiek, maar de antwoorden van de robot zijn compleet fout en soms zelfs hallucinerend.

  • De Vergelijking: Het is alsof je iemand vraagt om een verhaal te vertellen, en je fluistert in zijn oor een heel zacht, onhoorbaar geluidje dat precies op de frequentie zit waardoor zijn hersenen de woorden verwarren. Hij denkt dat hij het goed doet, maar hij vertelt een compleet ander verhaal.

4. Waarom is dit gevaarlijk?

Normale beveiliging kijkt naar zichtbare veranderingen. Als een foto er anders uitziet, wordt hij geblokkeerd. Maar deze aanval is onzichtbaar.

  • Het is alsof je een slot hebt dat alleen opent als je de sleutel precies 1 millimeter naar links draait. Normale beveiliging kijkt of de sleutel eruit steekt, maar deze aanval draait de sleutel precies op de manier die het slot laat springen, zonder dat de bewaker iets ziet.

De onderzoekers laten zien dat dit werkt op verschillende soorten robots (grote en kleine modellen) en op verschillende taken (vragen beantwoorden, beschrijvingen schrijven). Zelfs als je de computer een betere rekenmethode geeft (meer precisie), helpt het niet volledig. De zwakheid zit diep in de manier waarop de robot zijn "gedachten" bouwt.

Conclusie: Een Nieuw Soort Kwetsbaarheid

De kernboodschap van dit onderzoek is: Slimme computers zijn kwetsbaar voor rekenfouten, niet alleen voor slechte foto's.

Het is een waarschuwing voor de toekomst. Als we deze robots gaan gebruiken voor kritieke taken (zoals zelfrijdende auto's of medische diagnoses), moeten we oppassen. We kunnen niet alleen kijken of de foto er goed uitziet; we moeten ook controleren of de "rekenmachine" in hun hoofd niet door een onzichtbare trilling wordt verstoord.

Kortom: Je kunt een robot niet alleen bedriegen met een leugen, maar ook met een heel klein, onzichtbaar rekenfoutje dat zijn hele wereldbeeld laat instorten.