MASEval: Extending Multi-Agent Evaluation from Models to Systems
Dit paper introduceert MASEval, een framework-onafhankelijke bibliotheek die de evaluatie van LLM-agent-systemen uitbreidt van enkel modellen naar het volledige systeem, waarbij wordt aangetoond dat de keuze van het framework even belangrijk is als die van het model voor de prestaties.