CelloAI Benchmarks: Toward Repeatable Evaluation of AI Assistants

Dit paper introduceert CelloAI, een herhaalbaar benchmarkkader dat specifiek is ontworpen om de prestaties van LLM's te evalueren op domeinrelevante taken binnen High Energy Physics en High Performance Computing, waaronder het genereren van documentatie, het creëren van GPU-kernen en visuele data-analyse.

Oorspronkelijke auteurs: Mohammad Atif, Kriti Chopra, Fang-Ying Tsai, Ozgur O. Kilic, Tianle Wang, Zhihua Dong, Douglas Benjamin, Charles Leggett, Meifeng Lin, Paolo Calafiura, Salman Habib

Gepubliceerd 2026-03-03
📖 4 min leestijd🧠 Diepgaand

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, ouderwetse bibliotheek hebt vol met blauwdrukken voor een supercomplex ruimteschip. Deze blauwdrukken zijn door tientallen ingenieurs over de afgelopen 50 jaar geschreven, in verschillende talen, en sommige pagina's zijn zelfs verloren gegaan. Nu wil je een nieuwe, slimme robot-assistent (een AI) inhuren om je te helpen bij het bouwen en repareren van dit schip.

Het probleem? De robot is slim, maar hij heeft geen idee hoe het ruimteschip werkt. Als hij een foutje maakt, kan het hele schip ontploffen of, erger nog, hij bouwt iets dat er perfect uitziet maar gewoon niet werkt.

Dit is precies het probleem waar wetenschappers in de Hoge Energie Fysica (zoals bij CERN) en bij Supercomputers tegen aan lopen. Ze gebruiken AI om code te schrijven, maar de bestaande tests voor AI zijn alsof je vraagt: "Kan deze robot een simpele stoel bouwen?" Terwijl ze eigenlijk nodig hebben: "Kan deze robot een veiligheidsklep voor een kernreactor repareren zonder dat hij ontploft?"

Deze paper introduceert CelloAI, een nieuwe manier om te testen of die robot echt geschikt is voor dit zware werk. Ze hebben drie nieuwe "proefballonnen" (benchmarks) bedacht:

1. De Vertaalrobot voor de Handleiding (Code Documentatie)

Stel je voor dat je een boek hebt waarin de regels staan, maar de uitleg ontbreekt. De AI moet nu de uitleg schrijven.

  • De oude test: Kijkt alleen of de AI de juiste woorden gebruikt (bijv. "Hier staat een knop").
  • De nieuwe test (CelloAI): Kijkt of de AI begrijpt waarom die knop er is.
    • De analogie: Het is alsof je een vertaler vraagt om een recept te vertalen. De oude test zegt: "Heeft hij de ingrediënten opgeschreven?" De nieuwe test zegt: "Begrijpt hij dat je de suiker moet toevoegen voordat je de eieren klopt, en heeft hij dat ook zo opgeschreven?"
    • Het resultaat: De slimste robots kunnen de lijstjes (de "tags") perfect invullen, maar ze schrijven soms nog wel onzin over waarom iets werkt. Ze missen de "geest" van de wetenschap.

2. De Bouwmeester die van Materiaal verandert (Code Generatie)

Soms moet je een machine die op benzine werkt, ombouwen naar elektriciteit, zonder dat hij stopt met rijden. In de computerwereld heet dit: code van de ene computer (CPU) naar een super-snelle grafische kaart (GPU) verplaatsen.

  • De oude test: Kijkt of de code één klein stukje werkt (een "unit test").
  • De nieuwe test (CelloAI): Kijkt of het hele ruimteschip nog start.
    • De analogie: Het is alsof je een robot vraagt om een auto te bouwen. De oude test zegt: "Werkt het wiel?" De nieuwe test zegt: "Rijdt de auto naar de garage, remt hij goed, en ontploft hij niet?"
    • Het resultaat: De robots kunnen simpele taken (zoals een wiel vervangen) prima. Maar als ze een complexe motor moeten bouwen (de "simulatie-kern"), zakken ze door de vloer. Zelfs de slimste AI's lukken dit maar zelden perfect. Ze vergeten vaak belangrijke regels over hoe de onderdelen aan elkaar hangen.

3. De Kunstcriticus die naar Grafieken kijkt (Grafische Data Analyse)

Wetenschappers kijken naar duizenden grafieken om te zien of er iets mis is met hun experiment.

  • De oude test: Kijkt of de AI een lijn kan tekenen.
  • De nieuwe test (CelloAI): Kijkt of de AI een afwijking ziet en begrijpt wat die betekent.
    • De analogie: Stel je voor dat je naar een schilderij kijkt. Een simpele camera ziet: "Er is een rode vlek." De AI moet zeggen: "Die rode vlek is er niet in het origineel, en dat betekent dat de verf te dun was aangebracht."
    • Het resultaat: De robots kunnen soms een afwijking zien, maar ze zijn nog niet goed in het begrijpen waarom die afwijking er is. Ze zijn als een kunstcriticus die wel weet dat er iets mis is, maar niet weet welke kwast de fout heeft gemaakt.

Wat betekent dit voor de toekomst?

De boodschap van dit paper is simpel: We moeten stoppen met testen of AI's "leuke" dingen kunnen, en beginnen testen of ze "veilige" dingen kunnen doen.

De wetenschappers hebben nu een nieuwe "rijbewijstest" bedacht voor AI's. Deze test kijkt niet alleen of de code werkt, maar ook of de AI de context begrijpt, of hij de handleidingen correct schrijft, en of hij fouten in grafieken kan vinden.

Hoewel de robots nog niet perfect zijn (ze maken nog veel fouten bij de zware taken), geeft deze nieuwe test ons eindelijk een eerlijke manier om te zien welke AI het beste is voor het bouwen van de toekomstige ruimteschepen van de wetenschap. Het is de eerste stap om AI van een "leuke hobby" naar een "betrouwbare ingenieur" te tillen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →