Evaluation of Large Language Models via Coupled Token Generation

Diese Arbeit stellt eine Methode zur gekoppelten Token-Generierung vor, die den Einfluss von Zufälligkeit bei der Bewertung von Large Language Models kontrolliert und zeigt, dass dies nicht nur den Stichprobenbedarf reduziert, sondern auch zu anderen Modell-Rankings führen kann als herkömmliche Verfahren.

Nina Corvelo Benz, Stratis Tsirtsis, Eleni Straitouri, Ivi Chatzi, Ander Artola Velasco, Suhas Thejaswi, Manuel Gomez-Rodriguez

Veröffentlicht 2026-03-26
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Der „Glücksfall" beim Antworten

Stellen Sie sich vor, Sie haben zwei fast identische Zwillingsbrüder, die beide als Schauspieler arbeiten. Sie sollen denselben Text sprechen. Wenn Sie sie aber jeweils einzeln auf die Bühne schicken, passiert Folgendes:

  • Bruder A ist heute etwas nervös und sagt statt „Hallo" vielleicht „Moin".
  • Bruder B ist heute gut gelaunt und sagt „Hallo".

Wenn Sie dies nur einmal beobachten, denken Sie vielleicht: „Bruder B ist besser!" Aber das war nur Glück. Wenn Sie es 100 Mal wiederholen, merken Sie vielleicht, dass sie eigentlich gleich gut sind, aber durch Zufall mal unterschiedlich klingen.

Genau das passiert bei modernen KI-Modellen. Wenn Sie eine KI eine Frage stellen, antwortet sie nicht immer gleich. Sie nutzt einen „Zufallsgenerator" (einen Sampler), um das nächste Wort zu wählen. Das macht die KI kreativ, aber es macht es auch schwierig, sie fair zu vergleichen.

Die Lösung: Der „Zwillingseffekt" (Coupled Generation)

Die Autoren dieses Papiers haben eine clevere Idee entwickelt, um dieses Problem zu lösen. Sie nennen es „Gekoppelte Token-Generierung".

Stellen Sie sich vor, Sie schicken die beiden Zwillingsbrüder nicht einzeln, sondern Hand in Hand auf die Bühne. Und noch wichtiger: Sie geben ihnen exakt denselben Zufallsgenerator (denselben Würfelwurf).

  • Wenn der Würfelwurf sagt: „Sag 'Moin'!", dann sagen beide Brüder „Moin".
  • Wenn der Würfelwurf sagt: „Sag 'Hallo'!", dann sagen beide „Hallo".

Nun gibt es nur noch einen Unterschied zwischen den Brüdern: Ihre eigentliche Persönlichkeit (ihre Architektur und ihr Wissen). Wenn Bruder A trotzdem besser klingt als Bruder B, dann liegt es wirklich an ihm und nicht am Zufall.

Was haben die Forscher herausgefunden?

Die Wissenschaftler haben diese Methode mit echten KI-Modellen (wie Llama, Mistral und Qwen) getestet und zwei große Dinge entdeckt:

1. Man braucht viel weniger Versuche (Bis zu 75% weniger!)

Stellen Sie sich vor, Sie wollen testen, ob ein neuer Sportwagen schneller ist als ein alter.

  • Der alte Weg (Unabhängig): Sie lassen beide Autos 100-mal fahren, aber jedes Mal starten sie zu einer anderen Uhrzeit mit unterschiedlichem Wetter. Um sicher zu sein, wer schneller ist, brauchen Sie hunderte von Fahrten, um den „Wetter-Effekt" herauszurechnen.
  • Der neue Weg (Gekoppelt): Sie lassen beide Autos gleichzeitig auf derselben Strecke fahren. Das Wetter ist für beide gleich. Jetzt sehen Sie sofort, welches Auto besser ist.

Das Ergebnis: Mit der gekoppelten Methode braucht man bis zu 75 % weniger Versuche, um mit derselben Sicherheit zu sagen, welche KI besser ist. Das spart enorm viel Rechenzeit und Energie.

2. Die Rangliste kann sich komplett drehen

Das ist die überraschendste Entdeckung. Manchmal führt der Zufall dazu, dass eine schwächere KI in einer Rangliste plötzlich als Sieger dasteht, nur weil sie beim „Würfelwurf" mehr Glück hatte.

  • Beispiel: Drei Läufer (KI A, B und C) laufen ein Rennen.
    • Wenn sie einzeln laufen (mit unterschiedlichem Zufall), gewinnt vielleicht KI A, weil sie zufällig den perfekten Wind hatte.
    • Wenn sie aber Hand in Hand laufen (gleicher Zufall), merkt man plötzlich: „Moment mal, KI B ist eigentlich der Schnellste, aber KI A hatte nur Glück!"

Die Forscher haben gezeigt, dass die Ranglisten, die wir heute oft sehen (basierend auf vielen einzelnen Tests), manchmal falsch sein können. Die KI, die als „besser" gilt, ist vielleicht nur diejenige, die beim Zufallsgenerator öfter Glück hatte.

Warum ist das wichtig?

Bisher haben wir KI-Modelle oft wie in einem Wettkampf verglichen, bei dem jeder sein eigenes Los zieht. Das ist wie beim Lotto: Der Gewinner ist nicht unbedingt der Beste, sondern der Glückliche.

Diese neue Methode ist wie ein Fairness-Filter. Sie sorgt dafür, dass wir KI-Modelle wirklich nach ihrer Leistung bewerten und nicht danach, wer den besseren Würfelwurf hatte.

Zusammenfassend:
Die Autoren sagen: „Hört auf, die KIs einzeln und zufällig zu testen. Gebt ihnen denselben Zufall, damit wir sehen können, wer wirklich der Stärkste ist. Das spart Zeit und verhindert, dass wir falsche Gewinner küren."

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →