LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

Each language version is independently generated for its own context, not a direct translation.

Titel: Der große Programmier-Wettbewerb für KI-Geister

Stellen Sie sich vor, Sie haben fünf sehr unterschiedliche Schüler, die alle extrem gut darin sind, Texte zu lesen und zu schreiben. Man nennt sie „Large Language Models" (LLMs). Die Frage, die sich die Forscher stellten, war: Wer von diesen Schülern ist der beste, wenn es darum geht, komplexe mathematische Rätsel zu lösen und den Code dafür zu schreiben?

Um das herauszufinden, haben sie einen besonderen Test entwickelt, den sie LLM-ProS nennen. Hier ist die Geschichte dahinter, ganz einfach erklärt:

1. Der Prüfungsraum: Die ICPC

Stellen Sie sich die ICPC (International Collegiate Programming Contest) als den „Olympia" für Programmierstudenten vor. Die Aufgaben dort sind nicht einfach „Schreibe ein Programm, das 'Hallo Welt' sagt". Nein, es sind knifflige Rätsel: „Berechne die kürzeste Route für einen Müllwagen durch eine Stadt, die nur 2 Sekunden Zeit hat und nicht mehr als 100 Megabyte Speicher verbrauchen darf."

Die Forscher haben 166 dieser extrem schwierigen Aufgaben aus den Jahren 2011 bis 2024 gesammelt. Sie haben sich besonders auf die Aufgaben von 2024 konzentriert, weil diese so neu sind, dass die KI-Schüler sie wahrscheinlich noch nie in ihren Trainingsbüchern gesehen haben. Das ist wie eine neue Mathe-Arbeit, die niemand vorher geknackt hat.

2. Die Kandidaten (Die Schüler)

Die Forscher haben fünf verschiedene KI-Modelle gegeneinander antreten lassen:

GPT-4o, Mistral Large und Llama-3.1: Das sind die „Allrounder". Sie können fast alles: Texte schreiben, Bilder beschreiben, Code generieren. Sie sind wie sehr gebildete Bibliothekare, die alles gelesen haben, aber vielleicht nicht speziell für knifflige Logik-Rätsel trainiert wurden.
o1-mini und o1-preview: Das sind die „Spezialisten". Diese Modelle wurden extra dafür trainiert, langsam zu denken. Bevor sie eine Antwort geben, durchlaufen sie einen inneren Monolog (wie ein Schüler, der sich Notizen macht und Schritt für Schritt rechnet). Man nennt das „Chain-of-Thought" (Gedankenkette).

3. Der Wettkampf

Die Forscher gaben den KIs die Aufgaben und ließen sie die Lösungen programmieren. Dann schickten sie den Code an einen automatisierten Prüfer (Codeforces), der sofort sagte: „Richtig!", „Falsch!" oder „Zu langsam!".

4. Die Ergebnisse: Wer hat gewonnen?

Hier kommt die überraschende Nachricht:

Die Allrounder (GPT-4o, etc.): Sie hatten große Schwierigkeiten. Bei den ganz neuen Aufgaben (2024) waren sie fast komplett gescheitert. Es war, als würden sie versuchen, ein Rätsel zu lösen, indem sie raten, was der Lehrer vielleicht gemeint hat, anstatt die Logik zu verstehen. Sie machten viele Fehler beim Kompilieren (der Code lief gar nicht erst an) oder lieferten falsche Ergebnisse.
Die Spezialisten (o1-Modelle): Diese beiden Modelle waren die klaren Gewinner. Sie lösten deutlich mehr Aufgaben korrekt. Warum? Weil sie den „Schritt-für-Schritt"-Ansatz nutzen. Wenn sie ein Problem sehen, denken sie erst: „Okay, was ist das Ziel? Welche Formel brauche ich? Was könnte schiefgehen?" Erst dann schreiben sie den Code.

Ein gutes Bild:
Stellen Sie sich vor, Sie müssen einen komplexen Krimi lösen.

Der Allrounder liest den Fall und sagt sofort: „Ich glaube, es war der Butler!" (Er rät basierend auf Mustern, die er kennt).
Der Spezialist (o1) liest den Fall, macht sich eine Liste mit Hinweisen, prüft Alibis, rechnet die Zeitlinien nach und sagt dann: „Es war der Butler, weil er um 14 Uhr am Tatort war und das Messer in seiner Tasche hatte."

5. Was haben wir daraus gelernt?

Die Forscher haben drei wichtige Dinge entdeckt:

Denken ist besser als Auswendiglernen: Die Modelle, die gelernt haben, langsam zu überlegen (CoT), waren viel besser als die, die einfach nur schnell antworten wollten.
Neue Aufgaben sind hart: Selbst die besten KIs scheitern oft an Problemen, die sie noch nie gesehen haben. Sie können nicht so gut „generalisieren" (das Gelernte auf völlig Neues übertragen) wie ein menschlicher Genie-Programmierer.
Daten-Schmutz: Es gibt ein Problem: Wenn die KIs die Aufgaben schon einmal in ihren Trainingsdaten gesehen haben, schneiden sie viel besser ab. Das ist wie bei einem Schüler, der die Lösungen aus dem Lehrbuch auswendig gelernt hat. Die Forscher haben deshalb extra neue Aufgaben (2024) gewählt, um zu sehen, ob die KIs wirklich verstehen oder nur auswendig gelernt haben.

Fazit

Die Studie zeigt uns, dass KI-Modelle wie o1 einen riesigen Sprung gemacht haben, weil sie lernen, nachzudenken, bevor sie handeln. Aber sie sind noch nicht perfekt. Wenn es um extrem schwierige, neue Probleme geht, brauchen sie noch mehr Hilfe und Training.

Die Botschaft für die Zukunft ist: Wir müssen KI-Modelle nicht nur mit mehr Daten füttern, sondern ihnen beibringen, wie man logisch und strukturiert Probleme löst – genau wie wir es unseren Kindern im Mathematikunterricht beibringen.

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

1. Der Prüfungsraum: Die ICPC

2. Die Kandidaten (Die Schüler)

3. Der Wettkampf

4. Die Ergebnisse: Wer hat gewonnen?

5. Was haben wir daraus gelernt?

Fazit

1. Problemstellung

2. Methodik: LLM-ProS

3. Wichtige Beiträge

4. Ergebnisse und Analyse

5. Bedeutung und Fazit

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

1. Der Prüfungsraum: Die ICPC

2. Die Kandidaten (Die Schüler)

3. Der Wettkampf

4. Die Ergebnisse: Wer hat gewonnen?

5. Was haben wir daraus gelernt?

Fazit

1. Problemstellung

2. Methodik: LLM-ProS

3. Wichtige Beiträge

4. Ergebnisse und Analyse

5. Bedeutung und Fazit

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics