Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Ce papier présente CFE-Bench, un nouveau benchmark multimodal évaluant les capacités de raisonnement des grands modèles de langage sur plus de 20 domaines STEM à l'aide de problèmes d'examen universitaires authentiques, révélant que même les modèles les plus avancés peinent à maintenir des états intermédiaires cohérents dans des solutions multi-étapes malgré des performances correctes sur des sous-questions isolées.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

Ce papier présente RuCL, un cadre novateur d'apprentissage curriculaire stratifié qui améliore le raisonnement des modèles de langage multimodaux en reformulant la conception des récompenses via des rubriques généralisées et pondérées dynamiquement, permettant ainsi d'atteindre des performances record tout en évitant le piratage de récompenses.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Ce papier présente « Super Research », une nouvelle tâche et un benchmark évaluant la capacité des modèles de langage à résoudre des questions de recherche extrêmement complexes grâce à une décomposition structurée, une recherche à la fois très large et très profonde, et un protocole d'audit rigoureux.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Cet article présente uCDCR, un jeu de données unifié qui consolide divers corpus de résolution de coréférence inter-documents en anglais pour analyser systématiquement leurs propriétés lexicales et améliorer la généralisabilité des modèles, tout en démontrant que la résolution des entités et des événements constitue une tâche complexe qui ne doit pas se limiter aux événements.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

Le papier présente QIME, un cadre fondé sur l'ontologie qui génère des embeddings médicaux interprétables en représentant le texte par des réponses binaires à des questions cliniquement significatives, surpassant les méthodes interprétables existantes et se rapprochant des performances des encodeurs boîte noire tout en fournissant des explications concises.

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Ce papier présente ClinConsensus, un benchmark chinois basé sur le consensus d'experts cliniques évaluant les grands modèles de langage médicaux sur des cas ouverts et complexes à travers tout le continuum de soins, en proposant une nouvelle métrique de cohérence et un cadre d'évaluation à double juge pour identifier les forces et les limites actuelles de ces modèles.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Cette étude propose un cadre théorique et empirique unifié démontrant que, bien que les modèles de diffusion linguistiques (DLM) voient leur risque d'extraction de données d'entraînement augmenter avec la résolution d'échantillonnage, ils présentent globalement une fuite d'informations personnellement identifiables (PII) nettement inférieure à celle des modèles de langage autoregressifs (ARM).

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Ce papier présente RO-N3WS, un nouveau jeu de données de parole roumaine diversifié conçu pour améliorer la généralisation des systèmes de reconnaissance automatique de la parole dans des conditions à ressources limitées, démontrant que même un ajustement fin limité sur ces données réelles entraîne des réductions significatives du taux d'erreur de mots par rapport aux modèles de base en zéro-shot.

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

Cette étude propose un modèle de graphe orienté et un cadre expérimental utilisant des textes synthétiques générés par LLM pour évaluer la visualisation temporelle de discours textuels, révélant que l'interprétation des motifs relationnels par les utilisateurs est complexe et suggérant la nécessité d'approches de visualisation plus adaptatives plutôt que standardisées.

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL