When Does Critique Improve AI-Assisted Theoretical Physics?… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Vasilis Niarchos, Constantinos Papageorgakis, Alexander G. Stapleton, Sokratis Trifinopoulos

Gepubliceerd 2026-05-11

📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Vasilis Niarchos, Constantinos Papageorgakis, Alexander G. Stapleton, Sokratis Trifinopoulos

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je probeert een zeer moeilijk natuurkundeprobleem op graduate-niveau op te lossen (zoals het berekenen van hoe deeltjes interageren of hoe snaren vibreren). Je hebt een slimme AI-assistent, maar die blijft soms vastlopen of maakt fouten. Het artikel stelt een simpele vraag: Als je een tweede AI inzet als 'criticus' om het werk van de eerste AI te beoordelen en te corrigeren, helpt dat dan echt? En zo ja, hoe moet die tweede AI zich dan gedragen?

Om dit uit te zoeken, bouwden de auteurs een systeem genaamd SCALAR. Denk hierbij aan een team van drie personen dat werkt aan een wiskundetoets:

De Actor (De Student): Dit is de AI die probeert het probleem op te lossen.
De Criticus (De Docentassistent): Deze AI bekijkt het werk van de Student, vindt fouten en geeft feedback.
De Rechter (De Leraar): Deze AI zit buiten het gesprek, bekijkt het uiteindelijke antwoord en geeft een cijfer op basis van een strikte beoordelingsrubriek. Ze praat niet met de Student of de TA; ze beoordeelt enkel het resultaat.

Het Experiment: Het Gedrag van de Criticus Maakt Uit

De onderzoekers testten verschillende 'persoonlijkheden' voor de Student en verschillende 'leerstijlen' voor de Criticus.

De Persoonlijkheid van de Student: Ze probeerden de AI te vertellen: "Je bent een wereldwijd expert," of "Je bent een nerveuze student," of lieten het gewoon leeg.
De Stijl van de Criticus: Ze testten verschillende manieren om feedback te geven:
- Pedagogisch: Leidend vragen stellen (Socratische methode).
- Voorzichtig: Zacht zijn en gedeeltelijke vooruitgang accepteren.
- Strenge: Elke enkele fout nauwkeurig aanwijzen.
- Adversariaal: Elke bewering agressief uitdagen.

Wat Ze Vonden

1. Terugkoppelen is beter dan één enkele gok.
Net zoals een menselijke student verbetert wanneer ze feedback krijgt en het opnieuw probeert, behaalde de AI-'Student' bijna altijd een beter cijfer wanneer ze een gesprek mocht voeren met de 'Criticus' in plaats van slechts één antwoord te geven. De meertraps dialoog corrigeerde fouten die de eerste poging had gemist.

2. Het 'Expert'-persona is een mythe.
De auteurs testten of het vertellen aan de AI "Je bent een genie" haar slimmer maakte. Dat deed het niet. Of de AI nu werd geprompt om een expert te zijn, een novice, of gewoon zichzelf, de resultaten waren in wezen hetzelfde. Het 'persona' veranderde het resultaat niet.

3. De stijl van de Criticus hangt af van de Student.
Dit is de belangrijkste bevinding. De 'beste' manier waarop de Criticus praat, hangt volledig af van welk AI-model als Student optreedt.

Voor een kleinere, lichtere AI (zoals "Haiku"): Werkte de Criticus het beste wanneer deze constructief en voorzichtig was. Het hielp de student door aan te geven wat ze goed hadden en zachtjes verbeteringen voor te stellen. Boosaardig zijn of te streng zijn liet de kleinere AI juist slechter presteren.
Voor een grotere, slimmere AI (zoals "DeepSeek"): De stijl van de Criticus maakte veel minder uit. Of de Criticus streng, voorzichtig of neutraal was, de grote AI presteerde vergelijkbaar. Ze leek robuust genoeg om verschillende soorten feedback te verwerken zonder verward of ontmoedigd te raken.

4. Groter is niet altijd een wondermiddel.
Ze testten een kleine versie van een slim model (8 miljard parameters) en een enorme versie (70 miljard parameters).

Het grotere model was beter in de 'makkelijke' natuurkundeproblemen.
Echter, bij de zwaarste problemen botsten zowel het kleine als het grote model tegen een 'muur'. Zelfs met een enorm model en een behulpzame criticus bleven ze vastlopen op de meest complexe berekeningen uit de snaartheorie. Het opschalen van de modelgrootte loste de moeilijkste knelpunten niet op.

Het Grote Plaatje

Het artikel concludeert dat als je AI wilt gebruiken om complexe wetenschappelijke redeneringen te ondersteunen:

Vraag niet slechts één keer: Laat de AI proberen, feedback krijgen en het opnieuw proberen.
Verspil geen tijd aan 'rolspel'-prompts: De AI vertellen dat ze "moet doen alsof ze een expert is" helpt niet.
Stel je feedback af: Als je een kleinere, goedkopere AI gebruikt, geef dan zachte, constructieve feedback. Als je een enorme, krachtige AI gebruikt, maakt de feedbackstijl minder uit, maar boosaardig zijn helpt ook niet.

De studie suggereert dat de interactie tussen de AI en de feedbacklus belangrijker is dan de specifieke 'persoonlijkheid' die je aan de AI toekent. Het gaat niet om wie de AI denkt dat ze is, maar hoe ze tijdens het proces wordt begeleid.

Titel: Wanneer verbetert kritiek AI-ondersteunde theoretische fysica? SCALAR: Gestructureerde Critic–Actor-lus voor agentisch redeneren

Probleemstelling
Naarmate Large Language Models (LLM's) en agentische AI-systemen steeds vaker taken op onderzoeksniveau uitvoeren, rijst een kritische vraag over de doeltreffendheid van samenwerkingsstructuren tussen mens en AI of tussen AI-systemen onderling. Hoewel vroege aanwijzingen suggereren dat LLM's kunnen bijdragen aan theoretische fysica, wiskundige ontdekking en wetenschappelijke workflows, blijft de optimale structuur voor deze samenwerking een open vraag. Bestaande literatuur merkt op dat meertrapsinteracties vaak lijden aan "stuck error states" (vastzittende fouttoestanden) en degradatie van capaciteiten, terwijl gestructureerde multi-agentbenaderingen hallucinaties kunnen verminderen. Bovendien suggereren prompt-engineeringfolklore dat het toewijzen van specifieke persona's of feedbackstijlen de prestaties aanzienlijk beïnvloedt, maar deze claims zijn niet systematisch getest op redeneermodellen van de huidige generatie binnen de specifieke context van theoretische fysica. De auteurs beogen te bepalen welke interactiestructuren tussen een "Actor" (probleemoplosser) en een "Critic" (feedbackgever) de uitkomsten effectief verbeteren bij problemen op graduate-niveau in kwantumveldtheorie (QFT) en snaartheorie.

Methodologie: De SCALAR-pijplijn
De auteurs introduceren SCALAR (Structured Critic–Actor Loop for Agentic Reasoning), een gecontroleerde testomgeving ontworpen als een Actor–Critic–Judge-pijplijn. Dit kader is gemodelleerd naar pedagogische scaffolding (Wood et al., 1976; Vygotsky, 1978), waarbij een AI-agent een probleem probeert op te lossen, formatieve feedback ontvangt en uiteindelijk wordt geëvalueerd tegen een grondwaarheid.

Rollen:
- Actor: Een LLM-agent die de taak heeft om problemen op graduate-niveau in de fysica op te lossen. Het gedrag van de Actor wordt gemoduleerd door een Persona, gedefinieerd door twee orthogonale dimensies: Expertiseniveau (Expert, Novice, Standaard) en Redeneerstijl (Zorgvuldig, Fysisch, Sceptisch, Standaard). Dit levert 12 distincte persona-configuraties op.
- Critic: Een LLM-agent die de poging van de Actor beoordeelt, fouten signaleert en gestructureerde feedback geeft zonder de referentieoplossing te onthullen. Het gedrag van de Critic wordt gemoduleerd door een Feedbackstrategie: Adversariaal, Streng, Pedagogisch, Mild of Standaard.
- Judge: Een onafhankelijke LLM-evaluator die de oplossing van de Actor beoordeelt tegen een referentieoplossing. De Judge opereert buiten de dialooglus en scoort op basis van zes dimensies: Correctheid (50 punten), Wiskundige Strenheid, Logische Vloeiendheid, Kwaliteit van de Rechtvaardiging, Volledigheid en Fysische Consistentie (10 punten elk).
Experimentele Opstelling:
- Problemen: Drie problemen uit standaardhandboeken werden geselecteerd om verschillende aspecten van redeneren te testen: Peskin 2.3 (berekening van de Feynman-propagator), Peskin 4.2 (levensduur van het verval van een scalair deeltje) en Polchinski 2.7 (coëfficiënten van Operator Product-expansie in CFT).
- Modelvariaties: De studie varieerde de Actor-modelfamilie en -schaal:
  - DeepSeek-R1 70B (DS70B) en DeepSeek-R1-8B (DS8B), beide gekoppeld aan een DS70B Critic en een QwQ-32B (QWQ) Judge.
  - Claude Haiku 4.5 gekoppeld aan een Claude Sonnet 4.6 Critic en Judge.
- Maten: Prestaties werden gemeten via het Gemiddelde Score per Omloop ( $\bar{s}$ ), Winst ( $g$ , de verbetering van omloop 0 tot de laatste omloop) en Convergentiesnelheid ( $R$ , het percentage runs dat een sluitend oordeel behaalde). De auteurs gebruikten ook probleem-genormaliseerde contrasten ( $D\bar{s}$ , $D_R$ ) om de effecten van feedbackstrategieën te isoleren van de basisprobleemmoeilijkheid.

Belangrijkste Resultaten

Meertrapsdialoog verbetert uitkomsten: In alle modelinstellingen verbeterde iteratieve dialoog de resultaten aanzienlijk ten opzichte van single-shot pogingen. Voor het DS70B-model steeg de gemiddelde score van ongeveer 67,3 naar ongeveer 80,6, waardoor ongeveer 40% van de kloof tot verzadiging werd gedicht. Deze verbetering wordt toegeschreven aan de iteratieve structuur en niet alleen aan prompt-optimalisatie.
Feedbackstrategie van de Critic is modelafhankelijk:
- Asymmetrische koppeling (Haiku + Sonnet): De feedbackstrategie had een statistisch significant effect. Constructieve feedback (Pedagogisch, Mild, Standaard) leverde hogere gemiddelde scores op dan Strikte of Adversariale strategieën.
- Koppelingen binnen dezelfde familie (DeepSeek): In situaties waar Actor en Critic uit dezelfde modelfamilie kwamen (bijvoorbeeld DS70B Actor met DS70B Critic), had de feedbackstrategie een verwaarloosbaar statistisch effect op gemiddelde scores of convergentiesnelheden. Hoewel een lichte tendens naar Mild feedback werd waargenomen, waren Strikte of Adversariale feedback nooit stabiel voordelig.
Persona-prompting voor de Actor is ineffectief: Het variëren van de persona van de Actor (expertiseniveau en redeneerstijl) had geen meetbaar of consistent effect op de prestaties voor zowel de DeepSeek- als de Haiku-modellen. De 12 persona-configuraties voor DS70B besloegen een scorebereik van slechts 5 punten, niet te onderscheiden van steekproefvariatie.
Schaal-effecten en knelpunten: Het verhogen van het aantal parameters binnen de DeepSeek-familie (van 8B naar 70B) verbeterde de prestaties op eenvoudigere problemen (bijvoorbeeld Peskin 4.2), maar verwijderde niet het knelpunt dat werd waargenomen bij het moeilijkste probleem (Polchinski 2.7). Score-updatecurven onthulden dat terwijl DS70B bleef in een regime met positieve drift voor intermediaire problemen, zowel DS8B als DS70B een "vast punt" (stagnatie) vertoonden nabij een score van 63 op Polchinski 2.7, wat aangeeft dat schaling alleen de moeilijkste redeneeruitdagingen niet oplost.
Dialoogdynamiek: De auteurs analyseerden score-updatecurves om "regimes" van interactie te identificeren. Eenvoudige gevallen werden vaak goedgekeurd voordat Critic-feedback nodig was; intermediaire gevallen profiteerden van gestructureerde feedback; en moeilijke gevallen bleven vaak vastzitten ondanks extra omlopen.

Betekenis en Claims
Het artikel positioneert SCALAR als een gecontroleerde testomgeving voor het evalueren van interactiestructuren in door AI aangedreven wetenschappelijke ontdekking. De primaire bijdragen zijn:

Empirische Validatie van Interactiestructuren: Het toont aan dat meertrapsdialoog over het algemeen superieur is aan single-shot queries, maar dat het specifieke mechanisme van verbetering sterk afhankelijk is van de Actor–Critic-koppeling.
Refutatie van Prompt Engineering Folklore: De studie levert bewijs dat het toewijzen van specifieke persona's aan redeneermodellen de uitkomsten bij complexe wetenschappelijke taken niet betrouwbaar verbetert, wat de notie uitdaagt dat "rollenspelen" een universele hefboom is voor prestaties.
Conditionele Waarde van Kritiek: Het artikel betoogt dat de waarde van Critic-feedback niet universeel is; deze is het meest effectief in asymmetrische settings (lichtgewicht Actor, sterke Critic) en met constructieve (milde/pedagogische) strategieën. In settings binnen dezelfde familie maakt de specifieke feedbackstijl minder uit.
Beperkingen van Schaling: De resultaten suggereren dat het simpelweg vergroten van de modelschaal binnen een familie de prestaties op eenvoudigere taken verbetert, maar fundamentele knelpunten in moeilijkere, conceptueel dichte problemen niet oplost.

De auteurs concluderen dat voor door AI ondersteunde wetenschappelijke ontdekking de focus moet verschuiven van statische prompt engineering (persona's) naar dynamisch interactieontwerp (feedbackstrategieën en agentkoppelingen). Zij merken op dat hun huidige opstelling afhankelijk is van Critic-feedback die is geconditioneerd op een referentie, en dat toekomstig werk moet ingaan op hoe agenten kunnen worden gescaffold voor open-ended problemen waarbij het "antwoord" niet van tevoren bekend is.

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Het Experiment: Het Gedrag van de Criticus Maakt Uit

Wat Ze Vonden

Het Grote Plaatje

Meer zoals dit