FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs

Dit artikel introduceert FEM-Bench, een gestructureerde benchmark gebaseerd op computationele mechanica-taken die is ontworpen om het vermogen van grote taalmodellen om wetenschappelijk valide eindige-elementenmethode-code te genereren rigoureus te evalueren, waarbij wordt onthuld dat zelfs de meest geavanceerde modellen moeite hebben om deze niet-triviale problemen consistent op te lossen.

Oorspronkelijke auteurs: Saeed Mohammadzadeh, Erfan Hamdi, Joel Shor, Emma Lejeune

Gepubliceerd 2026-06-01✓ Author reviewed
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Saeed Mohammadzadeh, Erfan Hamdi, Joel Shor, Emma Lejeune

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een briljante, erudiete robot probeert te leren hoe hij een constructieleerling moet zijn. Je wilt niet alleen dat hij code schrijft die eruit ziet alsof het werkt; je wilt dat hij daadwerkelijk de wetten van de fysica begrijpt, zoals zwaartekracht, spanning en hoe materialen buigen.

Dit artikel introduceert FEM-Bench, een "eindexamen" dat specifiek is ontworpen om te testen of Large Language Models (LLM's) — de AI-breinen achter tools zoals ChatGPT — dit soort serieuze wetenschappelijke techniek kunnen uitvoeren.

Hier is een uitsplitsing van het artikel met behulp van eenvoudige analogieën:

1. Het Probleem: De "Rekenmachine" versus de "Ingenieur"

Beschouw huidige AI-modellen als ongelooflijk snelle rekenmachines. Als je ze vraagt om een eenvoudig programma te schrijven om getallen op te tellen of een lijst te sorteren, zijn ze erg goed in. Maar als je ze vraagt om te simuleren hoe een brug instort onder een zware vrachtwagen, falen ze vaak.

Waarom? Omdat het bouwen van een fysica-simulatie niet alleen gaat over het schrijven van code; het gaat over:

  • Het begrijpen van de regels: Weten hoe krachten precies door een balk bewegen.
  • De verbanden leggen: Kleine stukjes van een puzzel (kleine onderdelen van een structuur) nemen en deze perfect aan elkaar klikken om een totaalbeeld te vormen.
  • Het werk controleren: Een test schrijven om te bewijzen dat de simulatie niet liegt.

De auteurs realiseerden zich dat er geen standaard "rijexamen" bestond voor AI op dit specifieke gebied. Bestaande tests controleren of AI een website kan bouwen of een wiskundig raadsel kan oplossen, maar niet of het een wetenschappelijk geldige simulatie van de fysieke wereld kan bouwen.

2. De Oplossing: FEM-Bench (Het "Rijexamen")

De auteurs hebben FEM-Bench gecreëerd, een collectie van 33 specifieke uitdagingen gebaseerd op een eerstejaars mastercursus in computationele mechanica.

  • De Analogie: Stel je een rijexamen voor. Je vraagt een bestuurder niet alleen om te "rijden". Je vraagt hen om in te parkeren, in te voegen op de snelweg en door een rotonde te navigeren.
  • De Taken: In FEM-Bench bestaat het "rijden" uit zaken als:
    • Het berekenen hoe een 3D-balk buigt wanneer je er op drukt.
    • Een gladde, continue vorm (zoals een gebogen brug) omzetten in een digitaal rooster van kleine driehoeken (dit wordt "meshing" genoemd).
  • Het oplossen van complexe vergelijkingen om te zien of een structuur bezwijkt (instort) onder druk.

3. De Twist: Twee Delen van de Test

De benchmark vraagt de AI niet alleen om de code te schrijven. Het vraagt om twee dingen:

  1. De Code: Het eigenlijke simulatieprogramma.
  2. De Test: Een set "controle-regels" (unit tests) die de AI moet schrijven om te bewijzen dat zijn eigen code werkt.

De Metafoor: Het is alsof je een student vraagt om niet alleen een brug te bouwen van ijsstokjes, maar ook om een checklist te schrijven die bewijst dat de brug niet zal omvallen. Als de student een brug bouwt die er cool uitziet maar instort wanneer je er een gewicht op legt, faalt hij. Als hij een brug bouwt die wel standhoudt, maar niet de test kan schrijven om te bewijzen dat het klopt, dan faalt hij ook.

4. De Resultaten: De AI is Slim, Maar Nog Niet Helemaal

De auteurs hebben de top 10 AI-modellen (inclus kind Google, OpenAI en Anthropic) door dit examen gehaald. Dit is wat ze vonden:

  • De Makkelijke Zaken: De AI's zijn geweldig in de basis. Ze kunnen gemakkelijk eenvoudige, rechte problemen aanpakken (zoals een enkele houten balk). Het is alsof ze perfect kunnen inparkeren.
  • De Moeilijke Zaken: Wanneer de problemen complexer worden — zoals het omgaan met draaiende krachten, gebogen vormen of het voorspellen wanneer een structuur bezwijkt — beginnen de AI's te struikelen.
    • De "Kennisgat": Soms kende de AI simpelweg de specifieke formule voor een complex fysisch fenomeen niet. Het was alsof een bestuurder die weet hoe hij moet rijden, maar de regels van een rotonde niet kent.
    • Het "Assemblagegat": Soms kende de AI de onderdelen wel, maar kon hij ze niet correct samenvoegen. Het was alsof je alle Lego-instructies hebt, maar de verkeerde blokjes aan elkaar klikt.
    • Het "Testgat": Zelfs wanneer de AI een perfecte simulatie schreef, faalde het vaak in het schrijven van de tests om te bewijzen dat het correct was. Het schrijven van de "checklist" was moeilijker dan het bouwen van de "brug".

De Score:

  • Het beste model (Gemini 3 Pro) kreeg ongeveer 90% van de eenvoudige taken goed.
  • Echter, bij de moeilijkste taken (die complexe fysica vereisten zonder hulp), kon geen enkel model deze consistent oplossen.
  • Interessant genoeg was de AI vaak beter in het schrijven van de code dan in het schrijven van de tests om die code te verifiëren.

5. Het "Spiekbriefje"-Experiment

De onderzoekers probeerden te kijken of ze de AI konden helpen door het een "spiekbriefje" te geven (een systeemprompt met extra instructies).

  • Resultaat: Wanneer ze de AI de specifieke, complexe formules gaven die hij miste, werd de AI plotseling veel beter in het oplossen van de moeilijke problemen.
  • De Les: De AI is niet "dom"; het mist simpelweg specifieke, diepe kennis over bepaalde natuurkundige formules. Het kan de wiskunde van een instortende brug niet "verzinnen" op het moment zelf, maar als je het de formule geeft, kan het deze perfect gebruiken.

Samenvatting

FEM-Bench is een reality check voor AI in de wetenschap. Het laat zien dat hoewel AI erg goed wordt in algemene programmering, het nog steeds moeite heeft om een betrouwbare, onafhankelijke ingenieur te zijn voor complexe fysieke problemen. Het kan instructies volgen en eenvoudige modellen bouwen, maar het kan nog niet betrouwbaar redeneren door de diepe, complexe en precieze wetten van de fysica die nodig zijn om de echte wereld te simuleren zonder menselijke hulp.

De auteurs concluderen dat we benchmarks zoals deze nodig hebben om vooruitgang bij te houden. Naarmate AI slimmer wordt, zal het "rijexamen" moeilijker moeten worden om werkelijke verbetering te blijven meten.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →