Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die een onmogelijke zaak moet oplossen.

Tot nu toe hadden we twee soorten detectives:

De Diepe Detective: Deze gaat één spoor tot in de puntjes na. Hij duikt diep in één dossier, leest elke regel en lost een specifiek raadsel op. Maar hij kijkt vaak niet naar de rest van de stad. Hij heeft "tunnelvisie".
De Brede Detective: Deze loopt door de hele stad, verzamelt duizenden krantenknipsels en praat met iedereen. Hij heeft een enorm overzicht, maar mist de diepgang. Hij weet wat er gebeurt, maar niet waarom.

Deze paper introduceert een nieuwe, super-detective: Super Research.

Wat is Super Research?

Super Research is een nieuwe manier om kunstmatige intelligentie (AI) te testen. Het is geen simpele zoekopdracht meer ("Wie won de Super Bowl?"). Het is een opdracht die zo complex is dat zelfs de slimste AI-modellen er tegenop zien.

Stel je voor dat je de AI vraagt: "Hoe kunnen we medicijnen ontwikkelen die kankercellen doden zonder het eigen immuunsysteem aan te vallen, terwijl we rekening houden met ethische, economische en technische beperkingen?"

Om dit antwoord te vinden, moet de AI:

Super Diep graven: Het moet honderden stappen zetten, van het ene document naar het andere, om de waarheid te vinden die diep verborgen ligt.
Super Breed kijken: Het moet duizenden bronnen lezen, van medische tijdschriften tot economische rapporten, om geen enkel perspectief te missen.

Het resultaat is geen kort antwoord, maar een 50 pagina's dik rapport met honderden verwijzingen, net als een proefschrift geschreven door een team van experts.

De "Super Research" Uitdaging

De auteurs van dit paper hebben een gigantische test bedacht (een benchmark) met 300 van deze onmogelijke vragen. Ze hebben een "gouden standaard" gemaakt: een perfecte, door mensen gemaakte onderzoeksmap met alle feiten en logica die nodig zijn.

Vervolgens hebben ze de beste AI's ter wereld (zoals Gemini, Claude, o3, en andere) deze test laten doen.

Wat bleek eruit? (De Verbluffende Resultaten)

Het nieuws is niet heel goed: De AI's zakten er doorheen.

Zelfs de slimste systemen haalden maar een score van ongeveer 29% (op een schaal van 0 tot 100).

Ze konden wel veel informatie vinden (breed), maar ze konden die informatie niet logisch aan elkaar knopen (diep).
Ze maakten vaak fouten in de logica: ze concludeerden iets dat waar klonk, maar zonder bewijs.
Ze waren soms te voorzichtig en gaven vaag antwoorden in plaats van een duidelijk oordeel.

Het is alsof je een chef-kok vraagt om een 5-gangendiner te maken, en hij levert een bord met losse ingrediënten neer. De ingrediënten zijn er wel, maar het gerecht is niet bereid.

Hoe testen ze dit? (De "Grafische Audit")

Normaal gesproken laten mensen AI's beoordelen door een andere AI ("De AI-rechter"). Maar die rechter kan ook bedriegen of fouten maken.

De auteurs van deze paper hebben een slimme truc bedacht: De Grafische Audit.
Stel je voor dat het antwoord van de AI een huis is. De "Gouden Standaard" is de blauwdruk van dat huis.

De AI's test tool kijkt niet alleen of de muren er zijn, maar of de balken en steunen (de logica) op de juiste plek zitten.
Als de AI zegt: "Dit medicijn werkt," maar de steun (het bewijs) ontbreekt in de blauwdruk, dan wordt het huis afgekeurd.
Ze kijken ook of de AI maar één bron gebruikt (alsof het hele huis uit één baksteen is gebouwd) of dat het een echte mix is van duizenden bronnen.

Waarom is dit belangrijk?

Je zou kunnen denken: "Wie heeft er nou zo'n moeilijk onderzoek nodig? Ik wil gewoon weten hoe ik een ei moet bakken."

Dat klopt. Maar dit is de uiterste grens (de "plafond-test").

Als een AI deze super-moeilijke test niet kan halen, dan is hij ook niet betrouwbaar voor de "gewone" taken.
Het is als een sporter die de Olympische Spelen niet haalt. Als hij daar niet goed genoeg is, kan hij ook geen marathon lopen.
Deze test laat zien waar de AI's nu vastlopen: ze kunnen informatie verzamelen, maar ze zijn nog niet slim genoeg om die informatie echt te begrijpen en samen te voegen tot een waarheidsgetrouw verhaal.

Conclusie in één zin

Deze paper zegt: "We hebben een test bedacht die zo moeilijk is dat zelfs de slimste AI's er falen. Dit is nodig om te zien dat we nog een lange weg te gaan hebben voordat AI echt kan denken als een menselijke expert."

Het is een wake-up call: we hebben nog veel meer "brein" nodig voordat onze digitale assistenten echt meesters in hun vak worden.

Each language version is independently generated for its own context, not a direct translation.

Titel: Super Research: Het Beantwoorden van Hoog Complexe Vragen met Grootte Taalmodellen via Super Diep en Super Breed Onderzoek

1. Het Probleem

Hoewel Large Language Models (LLM's) uitstekend presteren in bestaande paradigmata zoals Deep Research (diepte, maar beperkte breedte) of Wide Search (breedte, maar gebrek aan diepte), blijken ze onvoldoende voor extreem complexe vragen. Deze vragen vereisen:

Lange-horizon planning: Het beheersen van honderden zoekstappen.
Massale bewijsverzameling: Het analyseren van duizenden webpagina's.
Synthese van heterogene bronnen: Het oplossen van tegenstrijdige bewijsstukken en het integreren van diverse perspectieven (economisch, technisch, sociaal).
Huidige tekortkomingen: Bestaande benchmarks zijn vaak te simpel, focussen op feitelijke recall in plaats van complexe synthese, en gebruiken onbetrouwbare evaluatiemethoden (zoals "LLM-as-a-Judge") die gevoelig zijn voor hallucinaties en oppervlakkige redenering.

2. Methodologie

De auteurs introduceren Super Research, een nieuw taakparadigma en een bijbehorend benchmark-framework.

A. De Super Research Taak
De kern van de methode ligt in de integratie van drie pijlers:

Gestructureerde Decompositie: Het breken van een monolithische query in een meerlagig onderzoeksplan (DAG - Directed Acyclic Graph).
Super Breed Retrieval: Horizontale exploratie van de zoekruimte om totale dekking van diverse perspectieven te garanderen.
Super Diep Onderzoek: Iteratieve follow-up queries om onzekerheden op te lossen en de betrouwbaarheid van datapunten te verifiëren.

B. De Benchmark Constructie

Dataset: Een verzameling van 300 door experts geschreven vragen over 10 gespecialiseerde domeinen (bijv. geneeskunde, natuurkunde, strategie).
Schaal: Elke taak vereist tot 100+ zoekstappen en de synthese van 1.000+ webpagina's.
Ground Truth: In plaats van een simpele tekst, wordt een gestructureerde Research Graph gegenereerd. Deze bevat atomaire feiten, afgeleide inzichten en globale conclusies, allemaal verankerd in bronnen.

C. Evaluatie Framework (Graph-Anchored Auditing)
Om de complexiteit te meten, gebruiken de auteurs geen simpele tekstvergelijking, maar een grafiek-geankerde audit met vijf dimensies:

Coverage & Comprehension ( $R_{weighted}$ ): Meet de recall van informatie, gewogen op diepte (atomaire feiten vs. globale inzichten).
Logical Consistency ( $C_{logic}$ ): Verifieert of conclusies logisch en ononderbroken zijn afgeleid van atomaire feiten via citatieketens.
Report Utility ( $U_{qa}$ ): Beoordeelt of het rapport zelfstandig bruikbaar is door middel van gesloten-context vragen (Q&A) die alleen op het rapport gebaseerd moeten worden beantwoord.
Objectivity Score ( $O_{bias}$ ): Meet de neutraliteit en het evenwicht in het presenteren van tegenstrijdige argumenten (these vs. antithese).
Citation Health: Diagnose van bronafhankelijkheid (Source Dominance) en narratieve monopolisatie (Monopolization) om te voorkomen dat het rapport slechts een samenvatting van één bron is.

3. Belangrijkste Resultaten

De auteurs hebben 12 representatieve systemen getest, waaronder gespecialiseerde Deep Research Agents (Gemini, Sonar, Tongyi, OpenAI o3/o4), Native Search Agents (Kimi, Grok) en Search-Augmented Baselines (DeepSeek, Claude, Llama).

Algemene Prestatie: Zelfs de state-of-the-art systemen scoren laag. Gemini Deep Research behaalde de hoogste score met slechts 28,62% (op een schaal van 0-100). Dit bevestigt dat super-complexe vragen een onopgeloste grens zijn.
Breedte vs. Diepte: Er is een positieve correlatie tussen ophaalbreedte en redeneerdiepte, maar breedte alleen garandeert geen logische consistentie. Sommige modellen verzamelen veel informatie maar falen in het logisch structureren daarvan.
Defensieve Samenvatting: Modellen zoals OpenAI's o3/o4 tonen een "defensieve houding": ze zijn objectief maar missen de granulaire details die experts nodig hebben (lage Utility-score).
Citation Health: Veel modellen vertonen structurele zwaktes, zoals het herhaaldelijk citeren van dezelfde bronnen (Single-Source Dependency) of het gebrek aan diverse bronnen, wat leidt tot een schijn van diversiteit zonder feitelijke onderbouwing.
Validatie van de Methode: De grafiek-gebaseerde metingen zijn aanzienlijk gevoeliger voor kwaliteitsveranderingen (bijv. het verwijderen van feiten) dan traditionele "LLM-as-a-Judge" methoden, die vaak falen bij het detecteren van subtiele fouten.

4. Kernbijdragen

Super Research Benchmark: Een nieuwe "ceiling-level" benchmark met 300 expert-taken die de operationele limieten van LLM's testen (100+ stappen, 1000+ pagina's).
Graph-Anchored Auditing Protocol: Een geautomatiseerde evaluatiemethode die rapporten projecteert op een kennisgrafiek om redenering, consistentie en objectiviteit kwantitatief en reproduceerbaar te meten.
Inzicht in Agent Capabilities: Het paper toont aan dat huidige systemen nog niet in staat zijn om extreme breedte en diepte gelijktijdig te beheersen, en identificeert specifieke knelpunten zoals logische coherentie en brondiversiteit.
Stress Test: Het positioneert Super Research als een noodzakelijke stress test om de robuustheid van autonome agenten te meten voordat ze in kritieke toepassingen (wetenschap, strategie) kunnen worden ingezet.

5. Betekenis en Impact

Dit werk markeert een verschuiving in de evaluatie van AI-agenten. Waar eerdere benchmarks focusten op feitelijke juistheid of simpele zoekopdrachten, introduceert Super Research een maatstaf voor strategische synthese.

Voor de AI-gemeenschap: Het biedt een realistisch beeld van de huidige beperkingen en een rigoureus testbed voor de ontwikkeling van volgende generatie agenten die lange-termijn planning en complexe bewijsverwerking kunnen hanteren.
Voor de Toepassing: Het benadrukt dat succes in Super Research een sterke proxy is voor algemene onderzoekscapaciteit. Als een model deze "ceiling" kan bereiken, is het waarschijnlijk robuust genoeg voor bijna elk subtiel onderzoekstask.
Risico's: De auteurs waarschuwen voor het risico van hallucinaties in dergelijke complexe workflows en de noodzaak van "Green AI" vanwege de hoge rekenkosten van langdurige zoektochten.

Kortom, het paper stelt dat we de grenzen van wat LLM's kunnen bereiken in onderzoek hebben bereikt, en dat nieuwe methoden nodig zijn om zowel diepte als breedte te integreren zonder in te leveren op logische consistentie en objectiviteit.

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Wat is Super Research?

De "Super Research" Uitdaging

Wat bleek eruit? (De Verbluffende Resultaten)

Hoe testen ze dit? (De "Grafische Audit")

Waarom is dit belangrijk?

Conclusie in één zin

Titel: Super Research: Het Beantwoorden van Hoog Complexe Vragen met Grootte Taalmodellen via Super Diep en Super Breed Onderzoek

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Kernbijdragen

5. Betekenis en Impact

Meer zoals dit

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis