Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

Deze studie toont aan dat multimodale grote taalmodellen moeite hebben om vaardigheden over verschillende modaliteiten optimaal te combineren, waarbij zelfs geavanceerde strategieën zoals chain-of-thought prompting en specifieke fine-tuning slechts een beperkt deel van deze kloof kunnen dichten.

Paula Ontalvilla, Aitor Ormazabal, Gorka Azkune

Gepubliceerd Tue, 10 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom Multimodale AI's soms "twee linkse handen" hebben

Stel je voor dat je een zeer slimme robot hebt die twee speciale vaardigheden heeft:

  1. De Oog: Hij kan perfect kijken naar plaatjes en dingen herkennen (zoals een kaart of een cijfer op een bordje).
  2. De Brein: Hij kan perfect redeneren, rekenen en vragen beantwoorden in tekst.

Je zou denken: "Super! Als hij beide vaardigheden heeft, kan hij ze toch makkelijk combineren?"
Het antwoord van dit onderzoek is verrassend: Nee, niet echt.

De onderzoekers van de Universiteit van het Baskenland hebben ontdekt dat deze moderne AI-modellen (zoals LLaVA, Qwen en Molmo) vaak vastlopen als ze hun 'Oog' en hun 'Brein' tegelijk moeten gebruiken om een taak op te lossen. Het is alsof je een voetballer hebt die perfect kan schieten en perfect kan dribbelen, maar zodra hij moet dribbelen terwijl hij schiet, hij struikelt en de bal mist.

Hier is hoe het onderzoek in het kort werkt, vertaald naar alledaagse voorbeelden:

1. De Drie Proefjes (De "Test")

De onderzoekers gaven de AI drie simpele taken die voor een mens kinderachtig makkelijk zijn, maar waar de AI moeite mee had:

  • De "Lees-en-Reken" Taak: Je laat de AI een foto zien van een wiskundetaak (bijv. "7 + 5 = ?") die als tekst op een bordje is geschreven.
    • Wat moet hij doen: Eerst de tekst van het bordje lezen (OCR) en daarna rekenen.
    • Het probleem: De AI leest het bordje vaak verkeerd af of vergeet de tekst direct na het lezen. Hij kan de twee stappen niet goed aan elkaar knopen.
  • De "Tel-de-Oranje" Taak: Je laat een foto zien van een fruitmand met oranje vruchten.
    • Wat moet hij doen: Eerst de oranje vruchten herkennen (visueel) en daarna tellen (tekstueel).
    • Het probleem: De AI ziet de vruchten wel, maar als hij ze moet tellen, raakt hij de draad kwijt.
  • De "Kaartspel" Taak: Je laat een foto zien van vier speelkaarten.
    • Wat moet hij doen: Eerst de kaarten herkennen (bijv. "een 9 van harten") en daarna rekenen (bijv. "tel alleen de rode kaarten op").
    • Het probleem: De AI ziet de kaarten, maar vergeten welke kleur ze hebben zodra hij moet gaan rekenen.

2. De Grote Ontdekking: De "Kloof"

De onderzoekers deden twee dingen:

  1. Directe poging: Ze gaven de AI gewoon de foto en de vraag. "Hoeveel is dit?"
  2. De "Trapsgewijze" poging: Ze dwongen de AI om eerst alleen de tekst te lezen, en daarna pas te rekenen. Alsof je zegt: "Schrijf eerst op wat er staat, en reken daarna pas uit."

Het resultaat?
Bijna elke AI deed het veel beter in de tweede situatie (de trapsgewijze). Dit betekent dat de AI de vaardigheden wel heeft, maar ze niet spontaan combineert. Er is een "kloof" tussen wat hij kan en wat hij doet. Het is alsof je een auto hebt met een geweldig motor en geweldig remmen, maar als je op het gaspedaal trapt, werkt de rem niet mee.

3. Kunnen we het fixen? (De "Reparatie")

De onderzoekers probeerden twee dingen om dit op te lossen:

  • De "Gedachtenstroom" (Chain-of-Thought): Ze gaven de AI een speciaal instructie: "Denk eerst na over wat je ziet, schrijf het op, en reken daarna."
    • Resultaat: Dit hielp een beetje, maar het was niet perfect. Het was alsof je de AI een handreiking gaf, maar hij struikelde nog steeds over zijn eigen voeten. Bovendien is dit lastig te schalen; voor elke nieuwe taak moet je een nieuwe, specifieke instructie bedenken.
  • Het "Oefenen" (Fine-tuning): Ze lieten de AI extra oefenen op precies deze soort taken.
    • Resultaat: Dit werkte goed, maar alleen voor de taken waar hij op geoefend had. Het was alsof je iemand laat oefenen voor een specifieke wedstrijd; hij wint die wedstrijd, maar als je hem een andere sport laat spelen, is hij weer in de war.

Conclusie: Wat betekent dit voor ons?

De boodschap is simpel: AI's zijn niet zo slim als ze lijken als het gaat om het samenvoegen van verschillende vaardigheden.

Ze hebben een "kennisbank" met losse stukjes (kijken, lezen, rekenen), maar ze hebben nog geen goed "verbindingsnetwerk" om die stukjes soepel samen te laten werken. Zelfs als de taak voor een mens heel logisch is (zoals kaarten tellen), blijft de AI haperen.

De metafoor van de toekomst:
Stel je voor dat je een chef-kok hebt die perfect kan snijden (visueel) en perfect kan kruiden (tekstueel). Maar als je hem vraagt om een gerecht te maken waarbij hij terwijl hij snijdt ook moet proeven en kruiden, maakt hij een rotzooi. Hij doet de ene taak, en vergeet de andere.

De onderzoekers concluderen dat we nog veel meer moeten leren over hoe we deze AI's kunnen trainen zodat ze niet alleen "vakken" hebben, maar ook weten hoe ze die vakken samen moeten gebruiken. Tot die tijd moeten we de AI misschien wat meer "sturen" in plaats van te verwachten dat hij alles zelf regelt.