Activation Steering for Masked Diffusion Language Models

Cet article propose une méthode de guidage des activations pour les modèles de diffusion masqués, démontrant qu'une intervention globale sur un sous-espace d'activation unidimensionnel permet un contrôle efficace et transférable du comportement du modèle, surpassant les approches basées sur l'optimisation ou les invites, tout en révélant des spécificités architecturales distinctes par rapport aux modèles autoregressifs.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Ce papier présente CFE-Bench, un nouveau benchmark multimodal évaluant les capacités de raisonnement des grands modèles de langage sur plus de 20 domaines STEM à l'aide de problèmes d'examen universitaires authentiques, révélant que même les modèles les plus avancés peinent à maintenir des états intermédiaires cohérents dans des solutions multi-étapes malgré des performances correctes sur des sous-questions isolées.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

Ce papier présente RuCL, un cadre novateur d'apprentissage curriculaire stratifié qui améliore le raisonnement des modèles de langage multimodaux en reformulant la conception des récompenses via des rubriques généralisées et pondérées dynamiquement, permettant ainsi d'atteindre des performances record tout en évitant le piratage de récompenses.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Ce papier présente « Super Research », une nouvelle tâche et un benchmark évaluant la capacité des modèles de langage à résoudre des questions de recherche extrêmement complexes grâce à une décomposition structurée, une recherche à la fois très large et très profonde, et un protocole d'audit rigoureux.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Cet article présente uCDCR, un jeu de données unifié qui consolide divers corpus de résolution de coréférence inter-documents en anglais pour analyser systématiquement leurs propriétés lexicales et améliorer la généralisabilité des modèles, tout en démontrant que la résolution des entités et des événements constitue une tâche complexe qui ne doit pas se limiter aux événements.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

Le papier présente QIME, un cadre fondé sur l'ontologie qui génère des embeddings médicaux interprétables en représentant le texte par des réponses binaires à des questions cliniquement significatives, surpassant les méthodes interprétables existantes et se rapprochant des performances des encodeurs boîte noire tout en fournissant des explications concises.

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Ce papier présente ClinConsensus, un benchmark chinois basé sur le consensus d'experts cliniques évaluant les grands modèles de langage médicaux sur des cas ouverts et complexes à travers tout le continuum de soins, en proposant une nouvelle métrique de cohérence et un cadre d'évaluation à double juge pour identifier les forces et les limites actuelles de ces modèles.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL