Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Deze paper introduceert M3IRT, een multimodaal en multidimensionaal item response theory-framework dat cross-modale redeneervermogens van multimodale grote taalmodellen nauwkeuriger evalueert en benchmarks optimaliseert door te onderscheiden tussen vragen die op basis van één modality of alleen door cross-modale integratie kunnen worden opgelost.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

Het artikel introduceert Graph-GRPO, een nieuw framework dat Group Relative Policy Optimization toepast om de stabiliteit en effectiviteit van het leren van communicatietopologieën in multi-agent systemen op basis van grote taalmodellen te verbeteren door relatieve prestaties binnen een groep van topologieën te gebruiken in plaats van absolute beloningen.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Dit onderzoek toont aan dat grote visueel-taalmodellen diagrammen beter begrijpen dan relaties tussen elementen, omdat informatie over knopen en structurele kenmerken al vroeg in de visuele encoder lineair gecodeerd is, terwijl randinformatie pas later in de taalmodulatie ontstaat, wat de moeite met het interpreteren van richtingen en relaties verklaart.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

Eval4Sim is een evaluatiekader dat de nauwkeurigheid van door persona's gestuurde gesprekken meet door drie complementaire dimensies te analyseren: de impliciete codering van achtergrondkennis, de consistentie van de identiteit en de natuurlijkheid van de conversatiestroom, waarbij afwijkingen van menselijke gesprekspatronen worden bestraft in plaats van alleen optimalisatie te stimuleren.

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL