Best-of-\infty -- Asymptotic Performance of Test-Time LLM Ensembling

Dit onderzoek analyseert de asymptotische prestaties van best-of-NN ensembling met meerderheidsstemming voor grote taalmodellen, introduceert een adaptief generatieschema om de inferentiekosten te optimaliseren en toont aan dat gewogen ensembles van meerdere modellen via een gemengd-geheelgetallig lineair programma superieure resultaten kunnen behalen.

Junpei Komiyama, Daisuke Oba, Masafumi Oyamada

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De "Beste van Oneindig": Hoe je een team van AI's slimmer maakt dan één super-AI

Stel je voor dat je een heel moeilijk wiskundeprobleem moet oplossen. Je hebt een slimme vriend (een Large Language Model of LLM) die je kan helpen. Maar soms maakt die vriend een fout, of twijfelt hij. Wat doe je dan? Je vraagt niet aan één vriend, maar aan veel vrienden om hetzelfde probleem op te lossen. Vervolgens kijk je welk antwoord het vaakst voorkomt. Dat noemen onderzoekers "Best-of-N": je vraagt N keer, en kiest de winnaar.

Deze paper, geschreven door Junpei Komiyama en zijn team, gaat over wat er gebeurt als je dit idee tot het uiterste drijft: Best-of-∞ (Beste van Oneindig).

Hier is de uitleg in simpele taal, met wat creatieve vergelijkingen:

1. Het probleem: Oneindig is onmogelijk (maar wel een mooi doel)

Als je oneindig vaak zou vragen aan je AI-vriend, zou je uiteindelijk altijd het juiste antwoord krijgen. Het is alsof je een munt gooit: als je oneindig vaak gooit, zal de verdeling van kop en munt precies 50/50 zijn. Bij een AI betekent "oneindig vragen" dat je de echte "meest waarschijnlijke" gedachte van de machine vindt.

Maar in het echte leven heb je geen oneindig budget. Je kunt niet 10.000 keer vragen aan een AI; dat kost te veel tijd en geld. Dus, hoe krijg je dat "oneindig goede" resultaat met een beperkt budget?

2. De oplossing: De slimme "Stop-Wacht" (Adaptief Sampling)

De auteurs bedachten een slimme manier om te stoppen. In plaats van vast te houden aan een getal (bijv. "vraag altijd 10 keer"), laten ze de AI stoppen zodra ze zeker zijn.

  • De analogie: Stel je voor dat je in een lokaal zit met honderden mensen en je vraagt: "Wie is de burgemeester?"
    • Als 99% direct "Jan" roept, hoef je niet langer te wachten. Je stopt direct.
    • Als de menigte verdeeld is tussen "Jan", "Piet" en "Klaas", blijf je luisteren tot er duidelijk een meerderheid ontstaat.
  • De techniek: De paper gebruikt een wiskundige methode (Bayesiaanse statistiek) om te berekenen: "Hoe groot is de kans dat het antwoord dat we nu hebben, ook echt het juiste is?" Zodra die kans hoog genoeg is, stopt de computer. Dit bespaart enorm veel tijd op makkelijke vragen, terwijl het genoeg tijd neemt voor moeilijke vragen.

3. De kracht van het team: Een mix van verschillende AI's

De paper gaat nog een stap verder. Wat als je niet één AI gebruikt, maar een team van verschillende AI-modellen?

  • Het idee: Soms is AI A heel goed in wiskunde, maar AI B is beter in logica. Als je ze samen laat werken, vullen ze elkaars zwaktes aan.
  • De uitdaging: Hoe verdeel je de stemmen? Als AI A 10 keer antwoordt en AI B 1 keer, wie telt dan meer?
  • De oplossing: De auteurs hebben een wiskundige formule (een zogenaamd "Mixed-Integer Linear Program") bedacht om de perfecte verdeling te vinden. Het is alsof je een coach bent die precies weet hoeveel minuten elke speler op het veld moet staan om het team te laten winnen. Ze hebben bewezen dat je met de juiste mix van AI's een team kunt maken dat slimmer is dan de slimste individuele AI in het team.

4. Wat hebben ze bewezen?

Ze hebben dit getest met echte, moeilijke wiskundeproblemen (zoals de Amerikaanse wiskunde-olympiade voor middelbare scholieren).

  • Resultaat 1: Hun "slimme stop-methode" bereikte bijna hetzelfde hoge niveau als "oneindig vragen", maar gebruikte 2 tot 5 keer minder rekenkracht.
  • Resultaat 2: Een team van verschillende AI-modellen, met de juiste gewichten, deed het beter dan welke enkele AI ook. Een zwakkere AI kon helpen door een specifiek type fout te voorkomen die de sterkere AI maakte.

Samenvatting in één zin

In plaats van blindelings te gokken of oneindig te blijven rekenen, gebruiken deze onderzoekers slimme statistiek om te weten wanneer ze genoeg hebben, en ze bouwen een perfect afgestemd team van AI's zodat ze samen slimmer zijn dan de som der delen.

Waarom is dit belangrijk?
Het betekent dat we in de toekomst minder dure computers nodig hebben om super-slimme antwoorden te krijgen, en dat we door verschillende AI's te combineren, problemen kunnen oplossen die voor één AI te moeilijk zijn. Het is de weg naar efficiëntere en slimmere kunstmatige intelligentie.