Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom één slimme denker vaak beter is dan een team van drie, als ze evenveel tijd hebben

Stel je voor dat je een heel moeilijk raadsel moet oplossen. Je hebt twee opties:

Optie A: Je laat één zeer slimme detective (de Single-Agent) het hele raadsel alleen oplossen.
Optie B: Je vormt een team van drie detectives (de Multi-Agent). De één zoekt feiten, de ander bedenkt theorieën, en de derde kijkt op fouten. Ze praten met elkaar om tot een antwoord te komen.

In de wereld van kunstmatige intelligentie (AI) denken veel mensen dat Optie B (het team) altijd beter is. Maar dit nieuwe onderzoek van Stanford laat zien dat dit niet waar is, tenzij je de regels van het spel goed bekijkt.

Hier is de uitleg in simpele taal:

1. Het probleem: De "Tijdsvalstrik"

Tot nu toe hebben teams (Multi-Agent) vaak gewonnen in wedstrijden. Maar er was een valstrik: teams gebruikten veel meer tijd en rekenkracht dan de enkele detective.

De enkele detective had 1 uur om na te denken.
Het team had 3 uur (elk lid kreeg 1 uur) én extra tijd voor het overleggen.

Het is logisch dat een team met 3 uur beter presteert dan een detective met 1 uur. Maar de onderzoekers wilden weten: Wie wint er als ze allebei precies evenveel tijd (of 'denktokens') hebben?

2. De theorie: Het "Verstoorde Signaal"

De onderzoekers gebruiken een slimme vergelijking uit de natuurkunde (informatietheorie).

De enkele detective heeft direct toegang tot alle bewijsstukken in één dossier. Het signaal is helder.
Het team moet het dossier eerst opsplitsen. Lid A leest een stukje, schrijft een samenvatting, en geeft dat door aan Lid B. Lid B schrijft weer een samenvatting voor Lid C.

Elke keer dat ze iets doorgeven, gaat er een beetje informatie verloren, net als bij het spel "Stille Post". Als je een boodschap doorgeeft aan drie mensen, is het eindresultaat vaak minder scherp dan als één persoon de hele boodschap had gelezen.

De conclusie: Als het team en de detective evenveel tijd hebben, wint de detective vaak omdat hij geen tijd verliest aan het "overleggen" en omdat er minder informatie verloren gaat.

3. De experimenten: De race

De onderzoekers testten dit met verschillende moderne AI-modellen (zoals Qwen, DeepSeek en Gemini) op moeilijke vraagstukken die meerdere stappen vereisen (bijv: "Wie is de echtgenoot van de winnaar van de prijs die in 2020 werd gewonnen?").

Ze gaven ze allemaal exact hetzelfde budget aan denk-tijd.

Resultaat: De enkele detective (Single-Agent) won bijna altijd, of deed het net zo goed als het team.
Het team bleef vaak achter, omdat ze hun tijd "verspilden" aan het schrijven van lange overlegberichten in plaats van het daadwerkelijk oplossen van het probleem.

4. Wanneer wint het team dan wel?

Is het team dus nutteloos? Nee! Het onderzoek toont aan dat het team wél wint in één specifieke situatie: als het dossier beschadigd is.

Stel je voor dat het dossier van de detective vol staat met vlekken, ontbrekende pagina's of valse informatie (dit noemen ze "context degradation").

De enkele detective raakt dan in de war en maakt fouten.
Het team kan echter helpen: Lid A filtert de valse informatie, Lid B zoekt de ontbrekende stukjes, en Lid C controleert of het klopt.

De les: Als de informatie heel rommelig of lang is, helpt een team om het te structureren. Maar als de informatie helder is, is één sterke denker sneller en slimmer.

5. Een verrassende ontdekking: De "Tijdklok" van Google

Tijdens het onderzoek vonden ze nog iets interessants bij het model van Google (Gemini).
De API (de software die de AI aanstuurt) zei: "Je hebt 10.000 denk-tokens gebruikt!"
Maar als de onderzoekers keken wat er echt op het scherm verscheen, was het veel minder. Het was alsof de AI dacht dat hij veel langer nadacht dan hij eigenlijk deed.
Dit betekent dat veel eerdere studies die claimden dat teams beter zijn, misschien gewoon keken naar AI's die "dachten" dat ze meer tijd hadden, terwijl ze in werkelijkheid niet meer deden dan een enkele detective.

Samenvatting in één zin

Als je AI-modellen een eerlijke kans geeft met evenveel tijd, wint de enkele slimme denker vaak van het team, tenzij de informatie zo rommelig is dat het team nodig is om de chaos te ordenen.

De boodschap: Soms is "meer" (meer agents, meer overleg) niet "beter". Soms is het gewoon een verspilling van tijd die beter gebruikt had kunnen worden om na te denken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Recent onderzoek toont sterke prestaties aan van Multi-Agent Systemen (MAS) voor complexe taken. Echter, deze prestatieverbeteringen worden vaak verward met een toename in rekentijd (compute) en token-gebruik tijdens het testen. MAS-systemen genereren vaak langere redeneertraces of meerdere interacties tussen agenten, wat leidt tot een hoger totaal aantal tokens dan Single-Agent Systemen (SAS).

De kernvraag van dit paper is: Wanneer we de beschikbare "thinking tokens" (tokens voor redenering, exclusief prompts en eindantwoorden) strikt gelijk houden, presteren Multi-Agent Systemen dan nog steeds beter dan Single-Agent Systemen bij multi-hop redeneringstaken? De auteurs stellen dat veel gerapporteerde voordelen van MAS eigenlijk het gevolg zijn van ongemeten extra rekenkracht en niet van inherente architecturale superioriteit.

Methodologie

De auteurs voeren een gecontroleerde empirische studie uit met de volgende componenten:

Theoretisch Kader (Informatietheorie):
- De auteurs gebruiken de Data Processing Inequality (DPI) om aan te tonen dat een multi-agent architectuur, die informatie doorgeeft via berichten ( $M$ ) die een functie zijn van de volledige context ( $C$ ), per definitie niet meer wederzijdse informatie met het juiste antwoord ( $Y$ ) kan hebben dan de oorspronkelijke context.
- Formeel: $I(Y; C) \geq I(Y; M)$ . Dit impliceert dat een SAS, dat direct toegang heeft tot de volledige context $C$ , theoretisch gezien altijd minstens even goed moet presteren als een MAS dat werkt op gereduceerde berichten $M$ , tenzij de contextverwerking in SAS zelf defect is (context degradatie).
Experimenteel Opzet:
- Datasets: FRAMES en MuSiQue (specifiek 4-hop vragen), die complexe wereldkennis vereisen.
- Modelfamilies: Qwen3-30B-A3B, DeepSeek-R1-Distill-Llama-70B, en Gemini 2.5 (Flash en Pro).
- Architecturen:
  - SAS: Eén enkele agent die de volledige vraag in één doorloop redeneert.
  - MAS Variaties: Sequential (geplande stappen), Subtask-parallel, Parallel-roles (Solver, Fact Extractor, Skeptic, etc.), Debate, en Ensemble.
- Controle: Alle systemen kregen exact hetzelfde globale budget aan "thinking tokens" toegewezen. De auteurs introduceerden ook een SAS-L variant (Single-Agent Long) om te testen of Gemini-modellen hun interne redeneringskanaal onderbenutten.
Diagnostische Analyse:
- De auteurs onderzochten de nauwkeurigheid van API-budgetcontrole (vooral bij Gemini) en voerden foutenanalyse uit om te zien waar systemen faalden (bijv. "over-exploration" of het verliezen van het juiste antwoord in de redeneringsketen).

Belangrijkste Resultaten

SAS Presteert Consistent Beter of Gelijk:
- Onder gelijke thinking-token budgetten presteert het Single-Agent systeem consistent beter dan of gelijk aan alle geteste Multi-Agent architecturen op multi-hop taken.
- Dit geldt voor alle drie de modelfamilies en beide datasets. De enige uitzondering is bij zeer kleine budgetten (100 tokens), waar geen van de systemen een bruikbare redenering kan genereren.
De Rol van Context Degradatie:
- De theoretische voorspelling werd bevestigd: MAS wordt pas concurrerend wanneer de effectieve contextgebruik van een enkele agent verslechtert (bijv. door ruis, masking of distractors in de context).
- Bij zware degradatie van de input (waarbij informatie verloren gaat of valse informatie wordt toegevoegd), kan een gestructureerd MAS de relevante informatie beter filteren of reconstrueren dan een enkele agent die door de ruis wordt "afgeleid".
Gemini Specifieke Bevindingen:
- Bij Gemini-modellen bleek dat SAS vaak minder zichtbare redeneertekst genereerde dan het gevraagde budget, terwijl MAS (door meerdere calls) meer tekst produceerde.
- De SAS-L variant (die de agent instrueerde om eerst ambiguïteiten te analyseren voordat hij antwoordde) verbeterde de prestaties aanzienlijk bij Gemini, wat suggereert dat Gemini's interne redeneringskanaal soms onderbenut wordt zonder specifieke prompting.
Foutenanalyse en API Artifacts:
- API Accounting: Er werd een significant verschil ontdekt tussen de door de API gerapporteerde token-aantallen en de daadwerkelijke zichtbare tekst (vooral bij Gemini 2.5). De API rapporteert vaak veel hogere token-aantallen dan er daadwerkelijk zichtbaar zijn, wat leidt tot misleidende vergelijkingen als men alleen naar API-rapporten kijkt.
- Falen van MAS: MAS-systemen neigen tot "over-exploration" (te veel zoeken) en "drift" (afwijken van de oorspronkelijke vraag), terwijl SAS vaker de juiste span (tekstgedeelte) behoudt en naar het eindantwoord overbrengt.

Bijdragen

Informatietheoretisch Bewijs: Een theoretisch onderbouwing gebaseerd op de Data Processing Inequality die uitlegt waarom MAS onder vaste budgetten inherent minder informatie-efficiënt is dan SAS.
Gecentraliseerde Empirische Vergelijking: Een uitgebreide studie die toont dat SAS de standaardkeuze is voor multi-hop redenering zolang de rekenkracht gelijk is, en dat MAS-gewonnenen vaak het gevolg zijn van ongemeten extra compute.
Methodologische Kritiek: Het blootleggen van artefacten in API-budgetcontrole en benchmark-vulnerabiliteiten (zoals memorisatie van vragen), wat waarschuwt voor de huidige evaluatiemethoden in het veld.

Betekenis en Conclusie

Dit paper daalt de huidige hype rondom Multi-Agent Systemen voor redeneringstaken. De conclusie is dat veel van de gerapporteerde voordelen van MAS niet voortkomen uit een superieure architectuur, maar uit het feit dat MAS-systemen simpelweg meer rekenkracht (tokens) verbruiken.

Voor onderzoekers: Het is cruciaal om bij het vergelijken van agent-architecturen strikt te controleren op het totale token-budget. Zonder deze controle zijn vergelijkingen niet eerlijk.
Voor de praktijk: Voor complexe redeneringstaken is een goed geoptimaliseerd Single-Agent systeem vaak de meest efficiënte en kosteneffectieve oplossing. Multi-agent systemen zijn alleen zinvol in specifieke regimes waar de context zo groot of ruisachtig is dat een enkele agent de informatie niet meer effectief kan verwerken, of wanneer er extra rekenkracht beschikbaar is om de coördinatiekosten te compenseren.

Kortom: Meer agenten betekent niet automatisch beter redeneren; het betekent vaak gewoon meer rekenen.

Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets

1. Het probleem: De "Tijdsvalstrik"

2. De theorie: Het "Verstoorde Signaal"

3. De experimenten: De race

4. Wanneer wint het team dan wel?

5. Een verrassende ontdekking: De "Tijdklok" van Google

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Betekenis en Conclusie

Meer zoals dit

Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

CIPHER: Conformer-based Inference of Phonemes from High-density EEG

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Skeleton-based Coherence Modeling in Narratives

Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models