MASEval: Extending Multi-Agent Evaluation from Models to Systems
O artigo apresenta o MASEval, uma biblioteca independente de frameworks que preenche a lacuna de avaliação ao tratar sistemas de agentes LLM completos como unidade de análise, demonstrando que a escolha do framework impacta o desempenho tanto quanto a escolha do modelo.