The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr schlauen Roboter, der riesige Mengen an Texten gelesen hat und jetzt behauptet, ein Genie in Mathematik zu sein. Bisher haben wir diesen Roboter nur mit einfachen Rechenaufgaben (wie „2 + 2") oder mit kniffligen Mathe-Olympiade-Rätseln getestet. Das war aber wie ein Probelauf: Entweder war es zu einfach, oder es war zu sehr auf das „Knobeln" ohne tiefes Verständnis ausgelegt.

Die Autoren dieses Papers haben sich gedacht: „Wie sieht es eigentlich aus, wenn wir den Roboter auf das Niveau eines echten Universitätsprofessors stellen?"

Hier ist die Geschichte ihrer Lösung, einfach erklärt:

1. Das Problem: Der „Fake-Test"

Bisherige Tests waren oft wie ein Lehrbuch, das der Roboter schon auswendig gelernt hat. Wenn ein Schüler für eine Prüfung lernt, aber die Fragen im Test genau aus demselben Buch stammen, weiß er die Antworten nicht wirklich, er hat sie nur auswendig gelernt. Das nennt man „Daten-Leckage".

Die Forscher wollten einen Test, bei dem der Roboter niemals die Fragen vorher gesehen hat. Sie wollten wissen: Kann er wirklich denken und verstehen, oder kann er nur raten?

2. Die Lösung: Der „CompMath-MCQ"-Test

Sie haben einen neuen Test entwickelt, den sie CompMath-MCQ nennen. Stell dir das wie eine große, geheime Prüfung vor, die speziell für diesen Roboter geschrieben wurde.

Wer hat die Fragen geschrieben? Echte Professoren, die jeden Tag an der Universität Mathematik unterrichten.
Worum geht es? Nicht um einfaches Rechnen, sondern um fortgeschrittene Themen wie:
- Wie funktionieren komplexe Datenstrukturen? (Lineare Algebra)
- Wie findet man den besten Weg in einem Labyrinth? (Optimierung)
- Wie berechnet man Veränderungen in der 3D-Welt? (Vektorrechnung)
- Und wie programmiert man das Ganze in Python?
Das Format: Es sind Multiple-Choice-Fragen (A, B oder C). Warum? Stell dir vor, du musst einen Roboter bewerten. Wenn er eine lange, offene Antwort schreibt, ist es schwer zu sagen, ob sie „richtig" ist (vielleicht hat er einen kleinen Fehler gemacht, aber die Idee war gut?). Bei Multiple Choice ist es klar: Richtig oder Falsch. Kein Rätselraten, keine subjektive Bewertung.

3. Der „Qualitäts-Check": Wie man sicherstellt, dass die Fragen fair sind

Bevor sie den Test veröffentlichten, wollten sie sicherstellen, dass die Fragen nicht selbst fehlerhaft waren. Sie haben einen cleveren Trick angewendet:

Stell dir vor, du hast acht verschiedene Experten (die besten KI-Modelle der Welt). Du gibst ihnen alle die gleiche Frage.

Wenn alle Experten die falsche Antwort wählen, dann ist wahrscheinlich die Frage selbst verwirrend formuliert oder die richtige Antwort ist falsch markiert.
Wenn die Experten sich streiten, schauen sich die menschlichen Professoren die Frage genau an und korrigieren sie.

Erst nachdem dieser strenge „Doppel-Check" bestanden war, durften die Fragen in den finalen Test.

4. Das Ergebnis: Der Roboter ist gut, aber nicht perfekt

Als sie die besten KIs der Welt (wie GPT-5, Claude, Llama) diesen Test machen ließen, kam Folgendes heraus:

Starke Seiten: Die Roboter waren hervorragend in Wahrscheinlichkeitsrechnung (Zufall und Statistik) und beim Programmieren (Python). Das ist wie ein Sportler, der im Sprint extrem schnell ist.
Schwache Seiten: Bei Vektorrechnung (komplexe 3D-Mathematik) und bei der Linearen Algebra stolperten sie. Hier machen sie oft kleine, aber fatale Fehler, wie falsche Vorzeichen oder das Vergessen eines Zwischenschritts.
Die Erkenntnis: Die KIs können Muster erkennen und raten, aber wenn es darum geht, mehrere komplexe Schritte präzise nacheinander durchzuführen (wie beim Lösen einer komplizierten Gleichung), verlieren sie manchmal den Faden.

Fazit: Was bedeutet das für uns?

Dieser Test ist wie ein neuer, ehrlicher Spiegel für Künstliche Intelligenz. Er zeigt uns:

KIs sind schon sehr weit, aber sie sind noch keine echten Mathematik-Genies auf Professoren-Niveau.
Sie brauchen noch mehr Übung im „präzisen Denken" und nicht nur im „Mustererkennen".
Wir haben jetzt einen fairen Maßstab, um zukünftige KIs zu testen, ohne dass sie die Antworten vorher aus dem Internet „gelesen" haben.

Kurz gesagt: Die KIs bestehen die Grundschule und die Mittelschule mit Bravour, aber im Graduiertenstudium (Master/PhD) müssen sie noch etwas lernen, bevor sie die Prüfung wirklich bestehen.

The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

1. Das Problem: Der „Fake-Test"

2. Die Lösung: Der „CompMath-MCQ"-Test

3. Der „Qualitäts-Check": Wie man sicherstellt, dass die Fragen fair sind

4. Das Ergebnis: Der Roboter ist gut, aber nicht perfekt

Fazit: Was bedeutet das für uns?

1. Problemstellung

2. Methodik

2.1. Datensatz: CompMath-MCQ

2.2. Validierungsframework

2.3. Evaluierungsprotokoll

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

1. Das Problem: Der „Fake-Test"

2. Die Lösung: Der „CompMath-MCQ"-Test

3. Der „Qualitäts-Check": Wie man sicherstellt, dass die Fragen fair sind

4. Das Ergebnis: Der Roboter ist gut, aber nicht perfekt

Fazit: Was bedeutet das für uns?

1. Problemstellung

2. Methodik

2.1. Datensatz: CompMath-MCQ

2.2. Validierungsframework

2.3. Evaluierungsprotokoll

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis