CelloAI Benchmarks: Toward Repeatable Evaluation of AI Assistants
Dit paper introduceert CelloAI, een herhaalbaar benchmarkkader dat specifiek is ontworpen om de prestaties van LLM's te evalueren op domeinrelevante taken binnen High Energy Physics en High Performance Computing, waaronder het genereren van documentatie, het creëren van GPU-kernen en visuele data-analyse.