Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

Die Studie zeigt, dass elf getestete KI-Tools bei der Klassifizierung des kognitiven Anspruchs mathematischer Aufgaben nur eine durchschnittliche Genauigkeit von 63 % erreichen, wobei sie systematisch zu mittleren Schwierigkeitsstufen neigen und oberflächliche Textmerkmale über tieferliegende kognitive Prozesse stellen.

Danielle S. Fox, Brenda L. Robles, Elizabeth DiPietro Brovey, Christian D. Schunn

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Können KI-Tools Lehrer beim Einschätzen von Mathe-Aufgaben helfen? Eine einfache Erklärung

Stellen Sie sich vor, Sie sind ein Lehrer. Sie haben einen Stapel Mathe-Aufgaben vor sich. Ihre Aufgabe ist es, herauszufinden: Ist diese Aufgabe nur „Auswendiglernen" (wie das Einmaleins aufsagen) oder verlangt sie echtes „Denken" (wie ein Detektiv, der einen Fall löst)?

Das ist wichtig, denn Aufgaben, die zum echten Denken anregen, bringen Schüler viel mehr bei als reine Rechenaufgaben. Aber Lehrer haben wenig Zeit. Deshalb wollten die Forscher in dieser Studie herausfinden: Können künstliche Intelligenz (KI)-Tools diese Unterscheidung automatisch und richtig treffen?

Hier ist die Geschichte, was sie getan haben und was sie herausfanden – ganz einfach erklärt.

1. Das Experiment: Der KI-Test

Die Forscher nahmen elf verschiedene KI-Tools (einige sind allgemeine Chats wie ChatGPT, andere sind speziell für Schulen gemacht) und gaben ihnen 12 verschiedene Mathe-Aufgaben.

Die Aufgaben waren in vier Kategorien eingeteilt, wie eine Leiter:

  1. Auswendiglernen: Nur Fakten wiederholen (z. B. „Was ist 1/2 in Prozent?").
  2. Abläufe ohne Zusammenhang: Rechenschritte abarbeiten, ohne zu verstehen, warum (z. B. „Rechne 3/8 in eine Dezimalzahl um").
  3. Abläufe mit Zusammenhang: Rechenschritte nutzen, um ein tieferes Verständnis zu entwickeln.
  4. Echtes Mathe machen: Komplexe Probleme lösen, bei denen es keinen festen Weg gibt und man selbst nachdenken muss (z. B. „Entwickle eine Strategie, um ein Problem in der echten Welt zu lösen").

Die KI sollte jede Aufgabe in eine dieser vier Kategorien einordnen.

2. Das Ergebnis: Die KI stolpert oft

Das Ergebnis war ein wenig enttäuschend, aber sehr aufschlussreich.

  • Die Durchschnittsleistung: Die KI lag im Durchschnitt nur bei 63 % richtiger Antworten. Das ist besser als rein zufälliges Raten, aber für einen Lehrer, der sich auf die KI verlassen will, viel zu unsicher.
  • Spezialisten vs. Allrounder: Man dachte vielleicht, die KI-Tools, die extra für Schulen gebaut wurden, wären besser. Aber nein! Die allgemeinen Chats (wie ChatGPT) waren genauso gut (oder schlecht) wie die Schul-Tools.
  • Der „Mittelmaß"-Effekt: Das war das interessanteste Phänomen. Die KI hatte große Angst vor den Extremen.
    • Wenn eine Aufgabe sehr einfach war (nur Auswendiglernen), sagte die KI oft: „Naja, das ist schon etwas mehr als nur Auswendiglernen."
    • Wenn eine Aufgabe sehr schwer war (echtes Denken), sagte die KI: „Das ist doch nur eine normale Rechenaufgabe."
    • Die Metapher: Stellen Sie sich vor, Sie fragen eine KI, ob ein Essen „sehr scharf" oder „sehr mild" ist. Die KI antwortet fast immer: „Es ist ein bisschen scharf." Sie traut sich nicht, die Extreme zu benennen und rutscht immer in die Mitte.

3. Warum macht die KI das? (Die Fehleranalyse)

Die Forscher haben sich genau angesehen, warum die KI falsch lag. Es lag nicht daran, dass sie die Aufgabe nicht lesen konnte. Es lag an ihrer Denkweise:

  • Oberflächen-Täuschung: Die KI schaut sich oft nur die Wörter an, nicht den Sinn. Wenn in einer Aufgabe das Wort „Berechnen" oder „Schritt für Schritt" steht, denkt die KI sofort: „Das ist eine einfache Rechenaufgabe." Dabei könnte die Aufgabe dahinter eigentlich sehr komplexes Denken verlangen.
  • Der „Detektiv"-Fehler: Bei Aufgaben, die echtes Denken erfordern (wie ein Mathe-Detektiv), verpasst die KI oft den Punkt. Sie sieht die Zahlen und die Formel, aber sie versteht nicht, dass der Schüler hier kreativ sein muss.
  • Überzeugende Lügen: Die KI gab oft sehr plausible Erklärungen für ihre falschen Entscheidungen. Das ist gefährlich, denn ein junger Lehrer könnte denken: „Die KI sagt, das ist eine einfache Aufgabe, also ist es eine einfache Aufgabe." Dabei ist die KI nur gut im „Begründen" von Fehlern, nicht im Finden der Wahrheit.

4. Was bedeutet das für Lehrer?

Die Studie sagt uns zwei wichtige Dinge:

  1. Noch nicht einsatzbereit: Man kann KI aktuell nicht einfach allein lassen, um Mathe-Aufgaben zu bewerten. Wenn man das tut, wird man viele Fehler machen. Die KI ist wie ein sehr gut ausgebildeter Praktikant, der noch viel zu unsicher ist, um allein zu arbeiten.
  2. Ein guter Assistent: Aber die KI ist trotzdem nützlich! Sie kann als Sparringspartner dienen. Ein Lehrer kann sagen: „KI, was denkst du über diese Aufgabe?" und dann selbst prüfen, ob die KI recht hat. Die KI kann helfen, Ideen zu generieren, aber der Lehrer muss das letzte Wort haben.

Fazit

Die KI ist wie ein sehr schneller, aber manchmal etwas oberflächlicher Schüler. Sie kann Texte lesen und Muster erkennen, aber sie versteht die tiefere Bedeutung von mathematischem Denken noch nicht richtig. Sie neigt dazu, alles „normal" zu machen, statt die wirklich einfachen oder wirklich schwierigen Aufgaben zu erkennen.

Für die Zukunft heißt das: Wir müssen die KI besser „erziehen" (durch bessere Fragen und Anweisungen), aber bis dahin bleibt das menschliche Urteil des Lehrers unersetzlich. Die KI ist ein Werkzeug, kein Ersatz für den pädagogischen Blick.