Perfect score on IPhO 2025 theory by Gemini agent

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, die Internationalen Physik-Olympiaden (IPhO) sind das „Super-Bowl"-Spiel oder die Olympischen Spiele für die klügsten Schüler der Welt, bevor sie überhaupt anfangen, an der Universität zu studieren. Die Aufgaben dort sind so schwer, dass selbst die besten menschlichen Köpfe oft nur Goldmedaillen bekommen, wenn sie fast alles perfekt lösen.

Dieser Bericht beschreibt ein Experiment, bei dem eine künstliche Intelligenz (eine KI) namens Gemini diese Olympiade 2025 nicht nur bestanden, sondern perfekt gelöst hat – jedes Mal, wenn sie es versucht hat.

Hier ist die Geschichte davon, wie das funktioniert hat, einfach erklärt:

1. Der Held: Ein KI-Agent mit einem „Super-Gehirn"

Stell dir die KI nicht als einen einfachen Roboter vor, der Fragen auswendig lernt, sondern als einen genialen Detektiv, der ein Team von vier anderen Detektiven in seinem Kopf hat.

Das Problem: Wenn man einem einzelnen KI-Modell eine sehr schwere Physik-Aufgabe gibt, macht es manchmal kleine Fehler. Ein kleiner Fehler am Anfang kann wie ein Dominoeffekt alles danach ruinieren.
Die Lösung (Der Agent): Der Autor hat einen „Agenten" gebaut. Dieser Agent lässt die KI die Aufgabe viermal gleichzeitig auf verschiedene Arten lösen (wie vier verschiedene Detektive, die unabhängig voneinander arbeiten).
Der Schiedsrichter: Dann nimmt der Agent diese vier Lösungen und lässt die KI sie vergleichen. „Hey, Lösung A und B sagen das Gleiche, aber Lösung C hat einen Minusfehler! Lösung D hat die Formel falsch abgeschrieben." Der Agent fasst die besten Teile zusammen und korrigiert die Fehler. Das nennt man „paralleles Denken".

2. Die Brille: Wenn die KI nicht genau genug sieht

Einige Aufgaben in der Physik-Olympiade enthalten Diagramme oder Grafiken, aus denen man Werte ablesen muss.

Das Problem: Wenn die KI nur mit ihren „Augen" (der Bilderkennung) schaut, ist das wie wenn ein Mensch versucht, einen Millimetermaßstab mit bloßem Auge abzulesen. Das ist ungenau.
Die Lösung: Der Agent hat ein Werkzeug dabei: Er kann Python-Code schreiben. Stell dir das so vor: Die KI schreibt ein kleines Programm, das wie ein digitaler Lineal-Scanner funktioniert. Es misst die Linien auf dem Bild pixelgenau aus.
Der Trick: Manchmal ist das „menschliche Auge" (die reine Bilderkennung) besser, wenn ein Punkt genau auf einem Gitter liegt. Der Agent entscheidet also selbst: „Soll ich das Bild mit dem Lineal (Code) messen oder einfach nur hinschauen?" Er misst sogar dreimal und nimmt den Durchschnitt, um sicherzugehen.

3. Die versteckten Fehler im Prüfungsheft

Das Interessanteste an diesem Bericht ist, dass der Autor nicht nur die KI getestet hat, sondern auch die Prüfungsfragen selbst überprüft hat.

Die Entdeckung: Bei der Überprüfung der offiziellen Aufgaben fand der Autor (und die KI) Fehler in den offiziellen Lösungen der Olympiade!
- Beispiel 1: In einer Grafik war eine Kurve gezeichnet, die physikalisch unmöglich war (wie eine Schwerkraft, die gegen die Naturgesetze verstößt).
- Beispiel 2: Ein Diagramm zeigte eine Verschiebung in die falsche Richtung (Rotverschiebung statt Blauverschiebung).
Die Korrektur: Der Autor hat die Aufgaben und die Bewertungsschemata korrigiert, damit die KI fair bewertet werden kann. Das ist, als würde ein Schiedsrichter merken, dass das Tor im Fußballfeld schief steht, und es vor dem Spiel richten.

4. Das große „Was-wäre-wenn": Hat die KI die Antworten schon gekannt?

Hier wird es kritisch. Die KI (Gemini 3.1) wurde nach der Olympiade 2025 veröffentlicht.

Das Risiko: Es ist möglich, dass die KI die Aufgaben aus dem Internet gelernt hat, bevor sie offiziell gelöst wurden (man nennt das „Datenkontamination"). Es ist wie wenn ein Schüler die Lösungen für die Mathearbeit schon im Internet gefunden hat, bevor er sie schreibt.
Die Verteidigung: Der Autor sagt: „Aber selbst die zweitbeste KI (Gemini 3 Deep Think), die 87,7 % erreicht hat, basiert auf derselben Technologie. Wenn die Datenkontamination das Ergebnis verfälscht hätte, dann wäre auch die zweitbeste KI betroffen."
Das Fazit: Auch wenn wir nicht 100 % sicher sind, ob die KI die Antworten „auswendig gelernt" hat, zeigt das Ergebnis, dass die KI-Technologie so weit fortgeschritten ist, dass sie selbst die schwierigsten menschlichen Aufgaben meistern kann.

Zusammenfassung in einem Satz

Dieser Bericht zeigt, dass eine KI, die wie ein Team aus vier Detektiven mit einem digitalen Lineal arbeitet, die schwersten Physik-Aufgaben der Welt perfekt lösen kann – und dabei sogar Fehler in den offiziellen Prüfungsfragen gefunden hat, die Menschen übersehen haben.

Es ist ein großer Schritt für die Zukunft: KI wird nicht nur zum Rechnen da sein, sondern wird uns helfen, die Physik selbst besser zu verstehen und Fehler in unseren eigenen Lehrbüchern zu finden.

Perfect score on IPhO 2025 theory by Gemini agent

1. Der Held: Ein KI-Agent mit einem „Super-Gehirn"

2. Die Brille: Wenn die KI nicht genau genug sieht

3. Die versteckten Fehler im Prüfungsheft

4. Das große „Was-wäre-wenn": Hat die KI die Antworten schon gekannt?

Zusammenfassung in einem Satz

1. Problemstellung und Kontext

2. Methodik: Der Gemini-Agent

A. Datenaufbereitung (Pre-Processing)

B. Agenten-Architektur

C. Evaluierung

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Diskussion

Perfect score on IPhO 2025 theory by Gemini agent

1. Der Held: Ein KI-Agent mit einem „Super-Gehirn"

2. Die Brille: Wenn die KI nicht genau genug sieht

3. Die versteckten Fehler im Prüfungsheft

4. Das große „Was-wäre-wenn": Hat die KI die Antworten schon gekannt?

Zusammenfassung in einem Satz

1. Problemstellung und Kontext

2. Methodik: Der Gemini-Agent

A. Datenaufbereitung (Pre-Processing)

B. Agenten-Architektur

C. Evaluierung

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Diskussion

Mehr davon

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

A Temporal-Spectral Fusion Transformer with Subject-Specific Adapter for Enhancing RSVP-BCI Decoding

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing

Multi-agent Assessment with QoS Enhancement for HD Map Updates in a Vehicular Network