How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache und bildhafte Zusammenfassung der Studie auf Deutsch:

🤖 Die Physik-Prüfung der Roboter: Wer besteht?

Stellen Sie sich vor, vier verschiedene künstliche Intelligenzen (KI) – nennen wir sie ChatGPT, Gemini, Claude und DeepSeek – setzen sich in ein Klassenzimmer. Vor ihnen liegen die echten, schweren Prüfungsfragen aus dem amerikanischen AP-Physik-Test (eine Art Abitur in Physik). Die Aufgabe? Diese Fragen zu lösen, genau wie ein Schüler, ohne zu sagen, dass sie eigentlich Computer sind.

Die Forscher haben diese „Schüler" über einen Zeitraum von 10 Jahren (von 2015 bis 2025) geprüft und ihre Antworten von drei echten Physik-Lehrern bewerten lassen. Hier ist, was sie herausfanden:

1. Die gute Nachricht: Sie sind gute Rechenmaschinen 🧮

Wenn es darum geht, Formeln anzuwenden und Zahlen zu multiplizieren, sind diese KIs erstaunlich gut. Sie haben im Durchschnitt 82 % bis 92 % der Punkte erreicht. Das ist so, als würden sie fast alle Matheaufgaben im Physik-Test perfekt lösen. Wenn die Frage klar ist und nur eine Formel braucht, sind sie wie ein Super-Genie.

2. Das große Problem: Sie können Bilder nicht richtig „sehen" 👁️🚫

Hier wird es knifflig. Physik ist nicht nur Zahlen; sie braucht auch Bilder, Diagramme und Vorstellungskraft. Und genau hier stolpern die Roboter.

Der Karten-Leser: Stellen Sie sich vor, einem Roboter wird eine Landkarte gezeigt, auf der ein Fluss bergab fließt. Ein Mensch sieht sofort: „Der Fluss wird schneller!" Der Roboter hingegen liest vielleicht nur die Zahlen auf der Karte, verwechselt die Richtung oder denkt, der Fluss fließt bergauf, weil er die Symbole falsch interpretiert.
Der 3D-Raum: Physik spielt oft im dreidimensionalen Raum (wie bei Magneten oder elektrischen Feldern). Die KIs haben große Mühe, sich vorzustellen, wie sich etwas im Raum dreht. Es ist, als würde man versuchen, einen Würfel zu bauen, während man die Augen verbunden hat. Sie machen Fehler bei der „Rechten-Hand-Regel" (eine Daumen-Regel für Magnetismus), weil sie den Raum nicht wirklich „fühlen".
Der Graphen-Leser: Wenn eine Kurve auf einem Papier gezeichnet ist, die zeigt, wie sich etwas verändert, lesen die KIs oft die falschen Werte ab. Sie raten Zahlen, anstatt sie genau abzulesen.

3. Der Wettkampf: Wer ist der Beste? 🏆

Es gab keine klare „Weltmeister"-KI, die immer gewann. Das hängt stark davon ab, wie schwer die Prüfung in einem bestimmten Jahr war.

AP Physik 1 (Mechanik): Hier waren alle vier KIs fast gleich gut. Es war ein Durcheinander. Manchmal gewann einer, manchmal der andere. Es gab keine feste Rangliste.
AP Physik 2 (Elektrizität, Wärme, Licht): Hier zeigten sich Unterschiede. Gemini und DeepSeek waren die stabilsten „Schüler". Sie machten weniger Fehler und waren verlässlicher. Claude und ChatGPT waren etwas unzuverlässiger, besonders bei den schwierigeren Aufgaben.

4. Warum machen sie Fehler? 🧩

Die Forscher haben herausgefunden, dass die KIs oft einen Domino-Effekt haben.
Stellen Sie sich vor, ein Schüler liest das erste Bild falsch. Dann berechnet er alles falsch. Aber er schreibt eine so überzeugende Erklärung dazu, dass man denkt, er habe recht. Die KIs sind sehr gut darin, selbst dann noch eine logisch klingende Geschichte zu erzählen, wenn ihre Grundannahme (das Bild) falsch war. Sie sind wie ein sehr eloquenter Lügner, der eine falsche Geschichte perfekt erzählt.

5. Was bedeutet das für Lehrer und Schüler? 🎓

Hilfe, aber kein Ersatz: Diese KIs sind fantastische Tutoren, wenn es darum geht, Formeln zu erklären oder Rechenschritte zu üben.
Vorsicht bei Bildern: Lehrer sollten ihren Schülern sagen: „Vertraue der KI nicht blind, wenn es um Diagramme, Grafiken oder räumliche Vorstellungen geht."
Lerngelegenheit: Die Fehler der KI sind eigentlich toll für den Unterricht. Lehrer können die falschen Antworten der KI als Beispiel nehmen und den Schülern zeigen: „Schaut mal, hier hat die KI den Raum falsch verstanden. Wo liegt der Fehler?"

Fazit

Die KI-Systeme sind wie sehr fleißige Schüler, die super gut rechnen können, aber manchmal die Augen verschließen, wenn sie Bilder ansehen müssen. Sie sind ein mächtiges Werkzeug für den Physikunterricht, aber sie brauchen noch menschliche Aufsicht, besonders wenn es darum geht, die Welt in Bildern und im dreidimensionalen Raum zu verstehen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des vorliegenden Papers auf Deutsch:

Titel und Kontext

Titel: How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions
Autoren: Bilas Paul, Jashandeep Kaur, Shantanu Chakraborty, Shruti Shrestha.
Zielsetzung: Die Studie bewertet systematisch die Leistungsfähigkeit von vier führenden Large Language Models (LLMs) bei der Lösung von offenen, algebra-basierten Aufgaben aus den AP-Physik-Prüfungen (Physics 1 und Physics 2) im Zeitraum von 2015 bis 2025.

1. Problemstellung

Trotz des rapiden Fortschritts von LLMs im Bereich STEM (Science, Technology, Engineering, Mathematics) fehlt es an einer fokussierten, granulareren Evaluation ihrer Fähigkeiten bei komplexen, offenen Physikproblemen (Free-Response Questions, FRQs).

Lücke: Bisherige Studien konzentrieren sich oft auf multiple-choice Fragen oder gut definierte Lehrbuchaufgaben. Die Fähigkeit von KI, visuelle Darstellungen (Diagramme, Graphen) zu interpretieren, räumliche Schlussfolgerungen zu ziehen und qualitative Erklärungen mit quantitativen Berechnungen zu verknüpfen, ist weniger erforscht.
Herausforderung: AP-Physik-Fragen erfordern nicht nur Rechnungen, sondern auch experimentelles Design, Graphenzeichnung und das Überführen zwischen verschiedenen Repräsentationen (Text, Bild, Formel).

2. Methodik

Datensatz:

Quelle: Offizielle FRQs der College Board für AP Physics 1 und AP Physics 2.
Zeitraum: 2015–2025 (2020 ausgeschlossen aufgrund der Pandemie-bedingten Formatänderungen).
Umfang: 10 Jahre an Prüfungen, abdeckend Themen wie Kinematik, Dynamik, Energie, Impuls, Rotation, Elektrizität, Schwingungen und moderne Physik.

Modell-Auswahl:
Vier zugängliche kommerzielle Modelle wurden getestet:

ChatGPT 4.1 mini (OpenAI)
Gemini 2.5 Flash (Google DeepMind)
Claude 4.0 Sonnet (Anthropic)
DeepSeek R1 (DeepSeek AI)

Experimentelles Design:

Prompting: Ein standardisierter Prompt wurde verwendet, der die KI als einen Schüler simuliert, der die Prüfung schreibt. Es wurden keine fortgeschrittenen Techniken wie Chain-of-Thought-Scaffolding oder Few-Shot-Learning eingesetzt, um die Basisleistung zu messen.
Auswertung: Die Antworten wurden von drei unabhängigen Physik-Experten (mit Doktortiteln und Lehrexperience) bewertet.
Richtlinien: Die Bewertung erfolgte strikt nach den offiziellen College Board Scoring Rubrics (Punktesystem für Konzepte, Rechnungen, Erklärungen).
Statistik:
- Zuverlässigkeit: Intraclass Correlation Coefficient (ICC) und Cronbach's Alpha zur Messung der Übereinstimmung zwischen den Gutachtern.
- Vergleich: Friedman-Test (nicht-parametrische Wiederholungsmessung) zur Prüfung signifikanter Unterschiede zwischen den Modellen über die Jahre hinweg.
- Post-hoc-Analyse: Wilcoxon-Vorzeichen-Rang-Test mit Bonferroni-Korrektur.
- Metriken: Mittelwert, Standardabweichung, Variationskoeffizient (CV) und Effektstärken (Cohen's d, Kendall's W).

3. Wichtige Ergebnisse

Quantitative Leistung:

Allgemeine Leistung: Alle Modelle erreichten hohe Durchschnittswerte (82–92 %), was auf starke Fähigkeiten im strukturierten algebraischen Problemlösen hinweist.
AP Physics 1 (Mechanik):
- Es gab keine statistisch signifikanten Unterschiede zwischen den Modellen ( $p = 0.141$ ).
- Die Rangfolge der Modelle war über die Jahre extrem instabil (Kendall's $W = 0.182$ ). Ein Modell, das in einem Jahr führend war, konnte im nächsten Jahr abschneiden.
- Hohe Variabilität von Jahr zu Jahr (CV 9,7–12,3 %).
AP Physics 2 (Thermodynamik, Optik, Elektromagnetismus, Moderne Physik):
- Hier zeigten sich signifikante Unterschiede ( $p = 0.0012$ ).
- Gemini und DeepSeek erzielten konsistent höhere und stabilere Ergebnisse (Durchschnitt ca. 91–92 %, CV < 7 %) als Claude und ChatGPT.
- Claude schnitt signifikant schlechter ab als Gemini und DeepSeek.
- ChatGPT zeigte die größte Instabilität (CV = 12,6 %) und schwankte stark zwischen sehr guten und schlechten Ergebnissen.

Qualitative Fehleranalyse (Kategorien der Fehler):
Die Analyse offenbarte systematische Fehlermuster, die bei allen Modellen auftraten:

Diagramm-Interpretation: Falsches Verständnis von geometrischen Beziehungen, Bewegungszuständen oder Potenziallinien (z. B. falsche Schlussfolgerungen bei Rampen oder Wellen).
Graphen-Lesen und -Erstellen: Unfähigkeit, quantitative Werte aus Graphen (z. B. PV-Diagramme) korrekt zu extrahieren; Fehler beim Zeichnen von Graphen (fehlende Skalierung, Achsenbeschriftung).
Richtungsfehler: Falsche Zuordnung von Vektoren (Kräfte, elektrische Felder), oft basierend auf inkonsistenten Annahmen.
Qualitative/Quantitative Inkonsistenzen: Formeln wurden korrekt angewendet, aber physikalische Randbedingungen (z. B. Gravitationspotential in Bernoulli-Gleichung) ignoriert.
Schaltkreis-Analyse: Schwierigkeiten, Reihen- und Parallelschaltungen aus Schemata korrekt zu identifizieren.
Rechte-Hand-Regel: Konsistente Fehler bei der Bestimmung von Richtungen in magnetischen Feldern und induzierten Strömen (3D-Raumverständnis).

4. Hauptbeiträge

Longitudinale Benchmark-Studie: Erste umfassende Evaluation von LLMs über einen Zeitraum von 10 Jahren an echten, standardisierten Physikprüfungen.
Differenzierung nach Fachgebiet: Nachweis, dass die Leistungshierarchie der Modelle stark vom Prüfungsinhalt abhängt (Physik 1 vs. Physik 2).
Taxonomie der KI-Fehler: Systematische Klassifizierung spezifischer physikalischer Fehlerarten, die über reine Rechenfehler hinausgehen (insbesondere räumliches und visuelles Verständnis).
Methodisches Framework: Kombination aus multi-rater Rubric-Scoring, nicht-parametrischer Statistik und qualitativer Fehleranalyse als Vorlage für zukünftige KI-Evaluationen in der Bildung.

5. Signifikanz und Implikationen

Für die Bildung:
- KI-Tools sind effektiv für das Üben algebraischer Manipulationen und das Verständnis definierter Konzepte.
- Sie sind jedoch nicht verlässlich für Aufgaben, die visuelle Interpretation, räumliches Denken oder die Integration mehrerer Konzepte erfordern.
- Pädagogen sollten KI-Ergebnisse kritisch prüfen und Fehler der KI als Lehrmittel nutzen, um Misskonzepte zu diskutieren.
Für die KI-Entwicklung:
- Die Ergebnisse zeigen klare Lücken in der multimodalen Grounding (Verknüpfung von Text und Bild) und im räumlichen Schlussfolgern.
- Zukünftige Modelle müssen Fähigkeiten zur Selbstkonsistenzprüfung und zur korrekten Interpretation von 3D-Szenarien aus 2D-Darstellungen verbessern.
Fazit: Während moderne LLMs beeindruckende Leistungen in der Physik erbringen, bleiben sie in Aufgaben, die echtes physikalisches Verständnis und visuelle Intelligenz erfordern, begrenzt. Die menschliche Expertise ist nach wie vor unerlässlich, um die subtilen Fehler der KI zu identifizieren und zu korrigieren.