From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Diese Arbeit stellt das Manual-to-Action-Dataset (M2AD) vor, das Möbelbauanleitungen mit Montagevideos verknüpft, um die Fähigkeiten multimodaler Sprachmodelle bei der Echtzeit-Assistenz für technische Aufgaben zu bewerten und dabei deren Grenzen in Bezug auf Architektur, Hardware und die Notwendigkeit von Bild-Text-Verknüpfungen aufzuzeigen.

Federico Toschi, Nicolò Brunello, Andrea Sassella, Vincenzo Scotti, Mark James Carman

Veröffentlicht 2026-03-25
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Von der Anleitung zur echten Hilfe: Ein neuer Test für KI-Assistenten

Stellen Sie sich vor, Sie sitzen vor einem riesigen, ungemachten Möbelstück aus dem IKEA-Laden. Die Anleitung liegt vor Ihnen, voller kleiner Pfeile und seltsamer Symbole. Sie versuchen, die Schrauben zu finden, aber Sie sind verwirrt. Was wäre, wenn Sie eine KI hätten, die nicht nur den Text liest, sondern auch sieht, was Sie gerade tun, und Ihnen genau sagt: „Hey, du hast die Schraube A vergessen, schau auf Seite 5!"?

Genau darum geht es in diesem Forschungsprojekt. Die Wissenschaftler haben eine neue Art von „Prüfstand" für solche KI-Assistenten gebaut. Hier ist die Erklärung, wie das funktioniert, ohne Fachchinesisch:

1. Das Problem: Die KI ist noch ein bisschen blind

Heutige große Sprach-KIs (wie Chatbots) sind super im Lesen und Schreiben. Aber wenn man sie bittet, eine komplexe Aufgabe wie den Aufbau eines Schranks zu sehen und zu verstehen, stolpern sie oft. Bisherige Tests waren zu einfach: Sie fragten die KI nur nach einem einzelnen Bild oder einem einzelnen Wort. Das ist wie ein Autoführerschein-Test, bei dem man nur den Motor startet, aber nie auf die Straße fährt.

Echte Hilfe braucht mehr: Die KI muss die Anleitung (Text) mit dem, was gerade passiert (Video), in Echtzeit verknüpfen.

2. Die Lösung: Der „M2AD"-Test (Das Möbelstück-Quiz)

Die Forscher haben einen neuen Datensatz namens M2AD erstellt. Stellen Sie sich das wie einen riesigen, digitalen Übungsraum vor:

  • Der Inhalt: Sie haben über 50 verschiedene Möbelstücke (von kleinen Regalen bis zu großen Schränken).
  • Das Material: Für jedes Möbelstück gibt es ein echtes Video, wie jemand es zusammenbaut, und dazu die originale Anleitung.
  • Die Magie: Jedes Video wurde minutiös mit der Anleitung verknüpft. Das System weiß genau: „In diesem Sekunden-Abschnitt des Videos passiert genau das, was auf Seite 12, Schritt 4 steht."

Es ist wie ein riesiges Quiz, bei dem die KI als Assistent getestet wird.

3. Der Test: Drei Aufgaben für die KI

Die Forscher haben verschiedene KI-Modelle (die „Schüler") durch diesen Übungsraum geschickt und ihnen drei Aufgaben gegeben:

  • Aufgabe 1: „Ist das fertig?" (Fortschrittskontrolle)

    • Szenario: Die KI sieht ein Video-Foto vom aktuellen Zustand und die entsprechende Seite der Anleitung.
    • Frage: „Hat der Mensch den Schritt schon richtig gemacht?"
    • Ergebnis: Die meisten KIs waren hier unsicher. Sie verwechselten oft „fast fertig" mit „fertig". Es war, als würde jemand versuchen, zu erkennen, ob ein Kuchen gebacken ist, nur indem er auf das rohe Mehl schaut.
  • Aufgabe 2: „Passt das zusammen?" (Suche)

    • Szenario: Die KI sieht das Video und bekommt zwei Seiten aus der Anleitung gezeigt (eine richtige, eine falsche).
    • Frage: „Welche dieser Seiten beschreibt das, was du im Video siehst?"
    • Ergebnis: Hier waren einige KIs besser, aber viele haben sich einfach nur geraten. Sie konnten das Bild nicht gut mit dem Text verbinden.
  • Aufgabe 3: „Wo stehen wir?" (Schritt-Identifikation)

    • Szenario: Die KI sieht das Video und zwei Seiten der Anleitung.
    • Frage: „Auf welchem Schritt bist du gerade?" (z. B. Schritt 14 von 50).
    • Ergebnis: Das war die härteste Prüfung. Fast alle KIs haben hier versagt, außer einer (namens MolMo). Diese eine KI war besonders clever: Sie hat die Bilder der Anleitung und das Video einfach nebeneinander gelegt und geschaut: „Ah, das Bild links im Video passt zum Bild rechts auf der Anleitung." Sie hat quasi mit dem Finger auf die richtigen Dinge gezeigt.

4. Was haben wir gelernt? (Die Moral der Geschichte)

Die Ergebnisse sind wie eine Mischung aus Hoffnung und Realitätsscheck:

  • Die KI kann schon viel: Sie versteht grundsätzlich, dass es eine Reihenfolge gibt. Sie kann lernen, ohne dass wir ihr jeden einzelnen Schraubenschlüssel mit der Hand zeigen müssen (weniger manuelle Arbeit für die Entwickler).
  • Aber es hakt noch: Die KIs sind oft zu langsam oder haben zu wenig „Gedächtnis", um lange Videos zu verstehen. Sie verlieren den Faden.
  • Der Schlüssel zum Erfolg: Die besten Modelle waren diejenigen, die nicht nur Text und Bild getrennt betrachten, sondern sie miteinander vermischen (wie Text und Bilder in einer Zeile) und räumlich denken können (wo ist was im Bild?).

Fazit

Dieses Papier zeigt uns, dass wir auf dem Weg zu einem echten „Roboter-Helfer" sind, der uns beim Zusammenbau von Möbeln (oder später beim Reparieren von Autos oder in der Medizin) zur Seite steht. Aber dieser Helfer ist noch nicht perfekt. Er braucht noch mehr Training, um nicht nur zu „sehen", sondern wirklich zu „verstehen", was vor sich geht.

Die Forscher sagen im Grunde: „Wir haben den Prüfstand gebaut. Jetzt müssen die KI-Entwickler ihre Modelle so trainieren, dass sie nicht nur Buchstaben lesen, sondern auch die Welt um sie herum verstehen."