LLMs with in-context learning for Algorithmic Theoretical Physics

Dit artikel toont aan dat een frontier Large Language Model (Claude), gekoppeld aan een computer algebra-systeem (Maple) en verrijkt met in-context learning via uitgewerkte voorbeelden, complexe, algorithmische berekeningen in de theoretische fysica betrouwbaar kan uitvoeren, specifiek voor kosmologische perturbaties in gemodificeerde zwaartekrachtstheorieën.

Oorspronkelijke auteurs: Anamaria Hell, Leander Thiele

Gepubliceerd 2026-05-12
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Anamaria Hell, Leander Thiele

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Het Grote Idee: De "Super-Stagiair" met een Rekenmachine

Stel je een theoretisch fysicus voor als een meesterkok. Ze zijn briljant in het bedenken van nieuwe recepten (theorieën) en het begrijpen van de diepe smaken van het universum. Een groot deel van hun werk bestaat echter uit het snijden van groenten, het afmeten van kruiden en het roeren van potten voor urenlang. Dit zijn de "algorithmische berekeningen" – taken die repetitief zijn, een strikte reeks regels volgen, maar ongelooflijk saai zijn en vatbaar voor menselijke fouten.

De auteurs van dit paper vroegen zich af: Kunnen we deze kok een super-intelligente, robotische stagiair (een AI) geven die ook een perfecte rekenmachine (een Computer Algebra System) heeft om het snijden en roeren te doen?

Ze testten dit door een top-AI (Claude) te koppelen aan krachtige wiskundesoftware (Maple) om complexe fysica-problemen op te lossen over hoe het universum golft en uitdijt.

Het Experiment: Leren door Voorbeelden vs. Leren door Regelsboek

De onderzoekers wilden zien hoe ze deze AI-stagiair het beste konden leren. Ze probeerden vier verschillende "trainingshandleidingen" (contexten) om te zien welke de AI het beste hielp de problemen correct op te lossen:

  1. Het "10-Voorbeelden" Kookboek: Ze gaven de AI een dik boek met 10 gedetailleerde, stap-voor-stap oplossingen voor vergelijkbare problemen.
    • Analogie: Als je een student een schoolboek geeft met 10 volledig opgeloste wiskundeproblemen voordat je vraagt om een nieuwe op te lossen.
  2. Het "3-Brede" Kookboek: Ze gaven de AI een kleiner boek met slechts 3 representatieve voorbeelden.
    • Analogie: Als je een student een "spiekbriefje" geeft met drie belangrijke voorbeelden.
  3. Het "Toegespitste" Kookboek: Ze namen de 3 voorbeelden en passten ze aan om specifiek de fouten aan te pakken die de AI in de eerste twee tests bleef maken.
    • Analogie: Als een leraar zegt: "Je vergeet steeds om de 1 mee te nemen bij deling; hier is een specifiek voorbeeld dat precies laat zien hoe je dat doet."
  4. De "Instructie"-Handleiding: Ze gaven de AI een algemene beschrijving van de regels en methoden, maar geen opgeloste voorbeelden.
    • Analogie: Als je iemand een receptenboek geeft dat alleen zegt "meng ingrediënten en bak", zonder te laten zien hoe de eindkoek eruitziet of hoe je ze moet mengen.

De Resultaten: Wat Werkte en Wat Niet

1. Voorbeelden zijn Koning
De AI presteerde het beste wanneer het opgeloste voorbeelden had (de kookboeken). Wanneer het alleen moest vertrouwen op een algemeen regelsboek (de "Instructie"-handleiding), had het aanzienlijke moeite. Het raakte verdwaald, bedacht zijn eigen regels, of gaf helemaal op.

  • De Les: De AI alleen vertellen hoe het moet denken is niet genoeg; laten zien hoe een succesvolle oplossing eruitziet is cruciaal.

2. Kwaliteit boven Kwantiteit
Interessant genoeg had de AI niet per se het dikke boek met 10 voorbeelden nodig. Een kleinere, zorgvuldig gekozen set van 3 voorbeelden werkte net zo goed, mits die voorbeelden de juiste waren.

  • De Les: Een paar goede rolmodellen zijn beter dan een bibliotheek met verwarrende exemplaren.

3. De "Toegespitste" Oplossing
De beste resultaten kwamen van de "Toegespitste" aanpak. Door te kijken waar de AI faalde in de eerste tests (zoals het verkeerd interpreteren van "vlakke achtergrond" als "kosmische achtergrond" of het verprutsen van complexe wiskundestappen), voegden de onderzoekers specifieke voorbeelden toe om die exacte fouten te herstellen. Dit hielp de AI om bijna alle problemen op te lossen.

  • De Les: Als je de specifieke zwakke plekken van je student kent, kun je ze oplossen met gerichte oefening.

4. De "Denk"-Modus Hielp Niet
De onderzoekers probeerden de "denk"-modus van de AI aan te zetten (waarbij het pauzeert om te redeneren voordat het antwoordt), in de hoop dat dit zou helpen bij de moeilijke logica. Het maakte niet echt verschil. De AI maakte nog steeds dezelfde fouten.

  • De Les: Voor deze specifieke soorten wiskundeproblemen maakte "langer denken" de AI niet slimmer; het had gewoon betere voorbeelden nodig.

Het Oordeel: Een Nuttig Hulpmiddel, Geen Vervanging

Het paper concludeert dat deze AI-stagiair-opstelling zeer veelbelovend is.

  • Succespercentage: Met de juiste voorbeelden loste de AI de meeste moeilijke fysica-problemen correct op. De auteurs zeggen dat zijn prestaties vergelijkbaar zijn met die van een eerstjaars promovendus in de fysica.
  • De Menselijke Rol: De AI is geweldig in het "snijden en roeren" (de berekeningen), maar het heeft nog steeds een menselijk toezichthouder nodig. Soms blijft de AI steken in een "triviale" oplossing of mist het een subtiele regel, net zoals een menselijke student dat zou doen. Een menselijk expert is nodig om het werk te controleren en de AI te begeleiden als het de verkeerde kant opgaat.

Samenvatting in het Kort

Het paper toont aan dat als je een slimme AI een krachtige wiskunderekenmachine geeft en het een paar duidelijke voorbeelden laat zien van hoe je een probleem oplost, het het zware werk van complexe fysica-berekeningen kan doen. Het is nog niet klaar om de fysicus te vervangen, maar het is klaar om een zeer behulpzame assistent te zijn die het saaie, repetitieve wiskunde doet, waardoor de mens zich kan richten op de creatieve grote ideeën.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →