From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

Van Handleiding naar Hulp: Een Nieuwe Test voor Slimme Robots

Stel je voor dat je net een nieuwe IKEA-kast hebt gekocht. Je hebt de handleiding, maar die is vaak verwarrend. Je zou graag willen dat er een slimme assistent naast je staat die precies ziet wat je doet, de handleiding in zijn hoofd heeft en je in real-time helpt: "Hé, die schroef zit nog niet goed," of "Je bent aan stap 5 toe, niet aan stap 3."

Dat is precies waar dit onderzoek over gaat. De auteurs hebben een nieuwe manier bedacht om te testen of onze huidige "slimme AI-assistenten" (zogenoemde Multimodale Large Language Models of MLM's) deze taak wel aankunnen.

Hier is de uitleg, vertaald naar alledaagse taal:

1. Het Probleem: De "Blinde" AI

Tot voor kort waren AI-modellen vooral super in het lezen van tekst. Maar in de echte wereld hebben we meer nodig: we moeten kijken (video) én lezen (handleiding) tegelijkertijd.
Stel je een robot voor die alleen tekst kan lezen. Als je hem vraagt: "Is die kast nu klaar?", kan hij dat niet beantwoorden omdat hij niet kan zien of jij de plank wel goed hebt vastgezet. Hij is als een blinde die een boek voorleest, maar de kast niet ziet.

2. De Oplossing: De "M2AD" Speelplaats

De onderzoekers hebben een nieuwe dataset (een verzameling data) gemaakt genaamd M2AD.

Wat is het? Het is een enorme bibliotheek van YouTube-video's van mensen die meubels in elkaar zetten, gekoppeld aan de echte IKEA-handleidingen.
Het unieke aspect: Ze hebben niet elke beweging tot in detail gemeten (zoals "arm beweegt 5 cm naar rechts"). Dat is te veel werk en te duur. In plaats daarvan hebben ze de video's gemerkt met de stap die de persoon doet.
De analogie: Het is alsof je een film hebt van iemand die een puzzel legt, en je hebt er een lijst bij met de nummers van de puzzelstukken. De AI moet nu zelf kunnen zien: "Ah, in dit stukje van de film wordt er een stukje geplaatst dat hoort bij stap 12 in de lijst."

3. De Test: De "Proef op de Som"

De onderzoekers hebben verschillende openbare AI-modellen (de slimste die je op een gewone pc kunt draaien) op deze test gezet. Ze stelden drie vragen, alsof ze een sollicitatiegesprek houden met de AI:

De "Is het klaar?"-vraag: "Kijk naar deze video en deze pagina uit de handleiding. Is de stap op de pagina nu voltooid?"
- Resultaat: Sommige AI's deden het redelijk, maar veel anderen dachten dat het willekeurig was. Het was alsof ze de foto's keken maar de tekst niet begrepen.
De "Zoek de juiste pagina"-vraag: "Kijk naar de video. Welke van deze twee handleiding-pagina's hoort bij wat je ziet?"
- Resultaat: Slechts een paar modellen konden dit goed. De meeste raakten de pagina's door elkaar.
De "Welke stap is het?"-vraag: "Kijk naar de video en de handleiding. Welk stapnummer wordt er nu precies gedaan?"
- Resultaat: Hier faalden bijna allemaal, behalve één model (MolMo). Dit model was slim genoeg om te zeggen: "Oh, ik zie dat de persoon naar de linkerkant van de afbeelding wijst, en daar staat stap 4."

4. Wat Leerden We? (De Lessen)

De resultaten waren een mix van hoop en realiteit:

De Hardware is een bottleneck: De AI-modellen zijn slim, maar ze hebben een "korte adem". Ze kunnen niet heel lang naar een video kijken of heel veel tekst en beelden tegelijk verwerken zonder hun geheugen vol te laten lopen. Het is alsof je probeert een heel boek te lezen terwijl je een zware rugzak draagt; je vergeet snel wat er eerder stond.
Visueel inzicht is cruciaal: De modellen die goed deden, konden goed "ruimtelijk redeneren". Ze begrepen dat de handleiding een platte tekening is en de video een echte, driedimensionale situatie. Ze konden de link leggen tussen "hier op papier" en "daar in het echt".
Minder werk voor mensen: Een groot pluspunt is dat deze AI's het redelijk deden zonder dat mensen elke seconde van de video moesten uitleggen. Dit betekent dat we in de toekomst minder dure, handmatige uitleg hoeven te geven om AI's te trainen.

5. De Toekomst: De Slimme Hulp in je VR-bril

De droom is dat je binnenkort een bril (Virtual Reality of Augmented Reality) opzet. De AI kijkt dan mee met je ogen, ziet wat jij ziet, leest de handleiding mee en zegt: "Wacht, je hebt de verkeerde schroef gepakt. Pak die ene links."

Dit onderzoek laat zien dat we daar nog niet helemaal zijn, maar we zijn wel een grote stap dichterbij. De AI's worden steeds beter in het combineren van wat ze zien en wat ze lezen, maar ze hebben nog wat meer "brein" en geheugen nodig om die perfecte, real-time hulp te worden die we nodig hebben in de echte wereld.

Kortom: We hebben een nieuwe testbaan gebouwd voor slimme robots. Ze lopen er nog niet perfect, maar ze leren snel hoe ze een handleiding en een werkende hand in één oogopslag kunnen begrijpen.

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

1. Het Probleem: De "Blinde" AI

2. De Oplossing: De "M2AD" Speelplaats

3. De Test: De "Proef op de Som"

4. Wat Leerden We? (De Lessen)

5. De Toekomst: De Slimme Hulp in je VR-bril

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

1. Het Probleem: De "Blinde" AI

2. De Oplossing: De "M2AD" Speelplaats

3. De Test: De "Proef op de Som"

4. Wat Leerden We? (De Lessen)

5. De Toekomst: De Slimme Hulp in je VR-bril

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Personalized Federated Sequential Recommender