Using Vision + Language Models to Predict Item Difficulty

Diese Studie zeigt, dass ein multimodaler Ansatz mit einem großen Sprachmodell, der sowohl Text- als auch Bilddaten von Visualisierungsfragen kombiniert, die Schwierigkeit von Testitems für US-Erwachsene präziser vorhersagen kann als rein text- oder bildbasierte Methoden.

Samin Khan

Veröffentlicht 2026-03-06
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie KI die Schwierigkeit von Diagramm-Fragen vorhersagt – Eine einfache Erklärung

Stellen Sie sich vor, Sie sind ein Lehrer, der einen neuen Test für Schüler erstellt. Ihre größte Sorge ist: „Ist diese Aufgabe zu schwer oder zu leicht?" Normalerweise müssen Sie den Test erst an echten Menschen ausprobieren, um das herauszufinden. Das kostet Zeit und Geld.

Dieser Forschungsbericht von Samin Khan aus Stanford fragt sich: Können wir das vorhersehen, noch bevor wir den Test überhaupt verteilen? Und zwar mit Hilfe einer sehr schlauen KI, die sowohl sehen als auch lesen kann.

Hier ist die Geschichte, wie das funktioniert, erklärt mit ein paar einfachen Bildern:

1. Das Problem: Der „Schwierigkeits-Test"

In der Welt der Datenvisualisierung (also Diagramme, Grafiken und Charts) gibt es viele Fragen, die Menschen beantworten sollen. Manche sind einfach (z. B. „Wie viele Äpfel sind im Bild?"), andere sind hart (z. B. „Welche Schlussfolgerung lässt sich aus dem Trend der letzten drei Jahre ziehen?").

Die Forscher wollten herausfinden: Was macht eine Frage eigentlich schwer? Ist es das Bild selbst? Ist es der Text der Frage? Oder ist es die Kombination aus beidem?

2. Die Lösung: Ein KI-Detektiv mit zwei Sinnen

Die Forscher haben eine moderne KI (ein sogenanntes „Multimodales Modell", speziell GPT-4.1-nano) eingesetzt. Man kann sich diese KI wie einen Super-Detektiv vorstellen, der zwei besondere Fähigkeiten hat:

  • Sehsinn: Er kann Diagramme, Farben und Linien genau betrachten.
  • Lesesinn: Er kann die Fragen und Antwortmöglichkeiten lesen und verstehen.

Der Detektiv bekam drei verschiedene Aufträge, um zu testen, was am besten funktioniert:

  • Auftrag A (Nur der Text): Der Detektiv liest nur die Frage, schaut aber nicht auf das Bild.
    • Ergebnis: Er rät ziemlich schlecht. Es ist wie jemand, der eine Landkarte beschreiben soll, ohne sie je gesehen zu haben. Er weiß nicht, ob das Bild verwirrend ist.
  • Auftrag B (Nur das Bild): Der Detektiv schaut nur auf das Diagramm, liest aber die Frage nicht.
    • Ergebnis: Besser als nur Text, aber immer noch nicht perfekt. Er sieht vielleicht, dass das Bild chaotisch ist, weiß aber nicht, welche spezifische Information gesucht wird.
  • Auftrag C (Der Allrounder): Der Detektiv schaut auf das Bild und liest die Frage gleichzeitig.
    • Ergebnis: Das war der Gewinner! Nur wenn er beides zusammen betrachtet, versteht er wirklich, warum eine Aufgabe schwer ist.

3. Die Analogie: Der Koch und das Rezept

Stellen Sie sich vor, Sie wollen wissen, wie schwer ein Gericht zu kochen ist.

  • Wenn Sie nur das Rezept lesen (Text), denken Sie vielleicht: „Das klingt einfach."
  • Wenn Sie nur auf die Zutaten schauen (Bild), denken Sie vielleicht: „Das sind nur ein paar Eier."
  • Aber erst wenn Sie beides zusammen betrachten, merken Sie: „Moment, das Rezept verlangt, dass ich die Eier in einem sehr spezifischen, komplizierten Muster aufschlagen muss, das auf dem Foto zu sehen ist."

Genau das hat die KI gelernt. Die Schwierigkeit entsteht oft durch das Zusammenspiel von Bild und Text. Ein einfaches Bild kann durch eine verwirrende Frage schwer werden, und ein komplexes Bild kann durch eine klare Frage leicht zu lösen sein.

4. Was hat die KI herausgefunden?

Die Forscher haben den KI-Detektiv an 154 verschiedenen Testfragen ausprobiert.

  • Die Kombination aus Bild und Text machte die genauesten Vorhersagen.
  • Die KI konnte fast so gut raten, wie ein erfahrener Psychologe, der hunderte von Tests ausgewertet hat.

Am Ende haben sie die beste KI-Version auf einen neuen, unbekannten Test angewendet (einen „Held-out-Test"). Die Vorhersagen waren so gut, dass die KI beweisen konnte: Ja, wir können die Schwierigkeit von Fragen automatisch berechnen, ohne Menschen zu befragen.

5. Warum ist das wichtig? (Die Zukunft)

Warum sollten wir uns dafür interessieren?

  • Zeitersparnis: Statt Monate zu warten, bis ein Test fertig ist, können Entwickler sofort sehen: „Oh, diese Frage ist viel zu schwer, wir müssen sie ändern."
  • Bessere Bildung: Wir können Tests bauen, die genau auf das Niveau der Schüler abgestimmt sind.
  • Klarheit: Es hilft uns zu verstehen, wo Menschen bei Diagrammen hängen bleiben. Vielleicht sind die Diagramme zu unübersichtlich, oder die Fragen sind zu knifflig formuliert.

Ein kleiner Haken (Die Grenzen)

Die KI war nicht perfekt. Es gab ein paar Bilder im Test, die ein spezielles Format hatten (SVG), das die KI damals nicht lesen konnte. Für diese wenigen Fälle musste sie einfach raten (wie ein Münzwurf). Das hat die Gesamtbewertung etwas verschlechtert. Aber das ist wie ein Koch, der ein Rezept nicht lesen kann, weil es in einer fremden Sprache geschrieben ist – das ist ein technisches Problem, das man in Zukunft lösen wird.

Fazit

Dieses Projekt zeigt, dass KI bald wie ein Assistent für Testmacher fungieren kann. Sie kann uns sagen, ob unsere Fragen fair sind, bevor wir sie jemandem geben. Es ist ein großer Schritt hin zu smarteren, schnelleren und gerechteren Tests für alle, die Daten verstehen müssen.