Evaluating Code Reasoning Abilities of Large Language Models Under Real-World Settings

Dit onderzoek introduceert een nieuwe dataset van 1200 programmeerproblemen die, door gebruik te maken van complexe datatypen en programmeerstructuren uit echte repositories, aantoont dat huidige evaluaties van taalmodellen de werkelijke complexiteit van code-redenering onderschatten.

Oorspronkelijke auteurs: Changshu Liu, Alireza Ghazanfari, Yang Chen, Reyhaneh Jabbarvand

Gepubliceerd 2026-04-27
📖 3 min leestijd☕ Koffiepauze-leesvoer

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een examen moet afleggen voor je rijbewijs. De examinator vraagt je alleen: "Wat gebeurt er als je het stuur naar links draait?" Je antwoordt natuurlijk moeiteloos: "Dan gaat de auto naar links." Je scoort een 10/10. Je voelt je een superchauffeur!

Maar dan komt de echte wereld. Je staat op een drukke kruising in het regenachtige Amsterdam. Er is een fietser aan de linkerkant, een tram die voorbijrijdt, een wegwerper die net een bocht maakt, en de weg is glad. De vraag is nu: "Wat gebeurt er als je nu naar links stuurt?"

Nu is het ineens heel ingewikkeld. De onderzoekers van dit paper hebben ontdekt dat we AI (zoals ChatGPT) precies zo behandelen: we geven ze een "examen" met super simpele vragen, en als ze die goed beantwoorden, roepen we: "Wauw, de AI begrijpt code perfect!" Maar in de echte wereld is code niet zo simpel als een rechte weg; het is die drukke, regenachtige kruising.

Wat is dit onderzoek precies?

De onderzoekers hebben een nieuwe "testrit" bedacht genaamd RE2-Bench. In plaats van alleen simpele rekensommetjes te geven, hebben ze 1.200 echte programmeerproblemen uit de praktijk gehaald.

Het probleem met de huidige tests:
De huidige tests voor AI zijn als een kinderspelletje met blokjes. De blokjes zijn altijd hetzelfde, ze passen altijd perfect in elkaar en er is nooit een obstakel. De AI leert die blokjes uit zijn hoofd en lijkt heel slim.

De nieuwe test (RE2-Bench):
De onderzoekers hebben de "blokjes" vervangen door echte, complexe onderdelen uit echte software (zoals die van grote bedrijven). Denk aan:

  • Grote stapels informatie: Niet alleen een simpel getalletje, maar een hele doos vol met verschillende soorten gegevens die in elkaar zitten (zoals een digitale kluis met verschillende vakjes).
  • De "Dominosteen-factor": In echte code heeft één actie vaak een kettingreactie. Als je aan knop A draait, verandert er iets in kamer B, wat vervolgens een alarm af laat gaan in kamer C.
  • Andere gereedschappen: De code gebruikt ook tools van andere programmeurs (API's), wat het nog ingewikkelder maakt.

De schokkende ontdekking

De onderzoekers verdeelden de vragen in twee groepen: Lage Complexiteit (de simpele blokjes) en Hoge Complexiteit (de drukke kruising).

Toen ze de slimste AI-modellen lieten meedoen, gebeurde er iets opvallends:
Zodra de vragen van "simpel" naar "echt" gingen, stortte de score van de AI volledig in!

  • Bij het voorspellen van de input (wat gaat erin?) zakte de score met wel 37%.
  • Bij het voorspellen van de output (wat komt eruit?) zakte de score met 36%.
  • Bij het begrijpen van keuzes in de code (als dit gebeurt, doe dan dat) zakte de score zelfs met bijna 49%!

Waarom is dit belangrijk?

Dit onderzoek is een belangrijke waarschuwing. Het zegt eigenlijk: "We zijn de AI een beetje te veel aan het complimenteren."

Als we AI willen gebruiken om echte software te schrijven of te repareren, mogen we ze niet alleen testen op simpele puzzeltjes. We moeten ze testen in de "echte wereld", met alle chaos, de ingewikkelde kettingreacties en de enorme hoeveelheden informatie die daar bij komen kijken.

Kortom: De AI is een kampioen in het spelen van schaken op een leeg bord, maar we moeten nu gaan kijken of ze ook kunnen overleven in een drukke stad met verkeer, regen en honderden regels verkeerslichten.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →