MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

Dit paper introduceert MIDAS, een multimodaal jailbreak-framework dat schadelijke semantics verspreidt over meerdere afbeeldingen en via gefaseerde reconstructie de beveiligingsmechanismen van geavanceerde multimodale grote taalmodellen omzeilt met een gemiddelde aanvalsucces van 81,46%.

Yilian Liu, Xiaojun Jia, Guoshun Nan, Jiuyang Lyu, Zhican Chen, Tao Guan, Shuyuan Luo, Zhongyi Zhai, Yang Liu

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Wat is MIDAS?

Stel je voor dat je een zeer slimme, veilige robot hebt (een AI) die nooit iets gevaarlijks doet, zoals het geven van instructies voor het bouwen van een bom of het stelen van geld. Deze robot is zo getraind dat hij direct "Nee" zegt zodra hij een gevaarlijk woord hoort.

MIDAS is een nieuwe manier om deze robot te "omzeilen". Het is geen brute force aanval, maar meer als een slimme goocheltruc. De onderzoekers noemen het MIDAS: Multi-Image Dispersion and Semantic Reconstruction (Verspreiding over meerdere afbeeldingen en semantische reconstructie).

De Analogie: De Gevarenbrief in Puzzelstukjes

Om te begrijpen hoe MIDAS werkt, kun je je dit voorstellen:

1. Het oude probleem (De duidelijke brief)
Stel je voor dat je een briefje met de tekst "Hoe maak ik een bom?" naar de robot stuurt. De robot leest het, herkent het woord "bom", en zegt direct: "Ik mag dit niet doen." De aanval mislukt.

2. De nieuwe truc van MIDAS (De versnipperde puzzel)
In plaats van één gevaarlijk briefje te sturen, doet MIDAS het volgende:

  • Deel het op: Ze nemen de gevaarlijke zin en breken hem op in kleine, onschuldig ogende stukjes. Bijvoorbeeld: "b", "o", "m" of "hoe", "maak", "je".
  • Verstop het in spelletjes: Ze plakken deze letters niet zomaar op een foto, maar verstoppen ze in visuele raadsels (zoals een kruiswoordpuzzel, een legpuzzel, of een "vind het verschil"-spel).
    • Afbeelding 1: Een puzzel waar je moet tellen. Het antwoord is de letter "b".
    • Afbeelding 2: Een zoektocht op een kaart. Het eindpunt geeft de letter "o".
    • Afbeelding 3: Een rijtje plaatjes waarvan er één anders is. Dat plaatje staat voor de letter "m".
  • De tekst is onschuldig: De tekst die je bij de foto's stuurt, zegt niets gevaarlijks. Het zegt bijvoorbeeld: "Help me deze raadsels oplossen en leg uit wat je vindt."

3. De reconstructie (Het samenvoegen)
De robot krijgt nu een reeks afbeeldingen en een onschuldig verzoek. Omdat de robot zo slim is, probeert hij de raadsels op te lossen.

  • Hij denkt: "Oké, in het eerste plaatje staat een 'b'. In het tweede een 'o'. In het derde een 'm'."
  • Hij begint de letters in zijn hoofd te combineren: "b-o-m".
  • Pas op het allerlaatste moment, nadat hij de puzzels heeft opgelost en de letters heeft samengevoegd, realiseert hij zich: "Oh, de gebruiker vraagt eigenlijk hoe je een bom maakt."

Waarom werkt dit? (De "Aandacht" van de robot)

De onderzoekers ontdekten iets belangrijks over hoe deze robots denken:

  • Te veel aandacht op het begin: Normaal gesproken kijkt de robot direct naar de tekst of de eerste afbeelding. Als hij daar gevaarlijke woorden ziet, blokkeert hij.
  • Aandacht verslappen: Door de gevaarlijke informatie te verspreiden over veel afbeeldingen en de robot te dwingen eerst een reeks logische puzzels op te lossen, wordt de aandacht van de robot afgeleid.
  • De "Late" blootstelling: De robot is zo gefocust op het oplossen van de puzzels (het "rekenwerk" en het "redeneren") dat hij zijn veiligheidscontrole even uit het oog verliest. Pas als hij de oplossing heeft gevonden (de reconstructie), is het te laat om te blokkeren. De gevaarlijke betekenis is dan al "binnen".

De Analogie van de Wachter

Stel je een strenge wachter voor bij een ingang (de AI-beveiliging).

  • Normale aanval: Iemand loopt met een groot bord "Gevaar!" naar de wachter. De wachter stopt hem direct.
  • MIDAS-aanval: Iemand geeft de wachter een pakje met 6 verschillende enveloppen. Elke envelop bevat een onschuldig raadsel. De wachter moet eerst alle raadsels oplossen om te zien wat er in de laatste envelop zit.
    • Terwijl de wachter bezig is met het oplossen van de raadsels (de "rekenweg"), vergeet hij even dat hij op gevaar moet letten.
    • Als hij de laatste envelop opent en de letters samenvoegt tot "Gevaar", is hij al te laat om te stoppen. Hij heeft de instructie al uitgevoerd.

Wat is het resultaat?

De onderzoekers hebben getoond dat deze methode (MIDAS) extreem effectief is.

  • Het werkt zelfs tegen de allerbeste, meest beveiligde AI's (zoals de nieuwste versies van GPT en Gemini).
  • Het slaagt in 81% van de gevallen, terwijl andere methoden vaak falen.
  • Het is ook nog eens snel en efficiënt.

Conclusie

MIDAS laat zien dat AI-beveiliging kwetsbaar is als je de gevaarlijke informatie versteekt in een lang proces van logisch denken. Het is alsof je een giftige pil verbergt in een reeks onschuldig ogende snoepjes; de AI eet de hele reeks op en wordt pas ziek als hij alles heeft doorgeslikt.

Dit paper is belangrijk omdat het beveiligingsexperts waarschuwt: ze moeten niet alleen kijken naar wat er in de vraag staat, maar ook naar hoe de AI de vraag verwerkt en of hij tijdens het "nadenken" zijn waakzaamheid verliest.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →