EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Le papier présente EsoLang-Bench, un nouveau benchmark utilisant des langages de programmation ésotériques pour révéler que les grands modèles de langage, bien que performants sur les tâches de codage standards, échouent à démontrer un raisonnement véritable en raison d'une dépendance excessive à la mémorisation des données d'entraînement.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Cette étude propose un cadre de classification automatisé pour la gestion des risques cardiaques chez les personnes âgées, démontrant qu'une architecture Transformer personnalisée surpassant les modèles classiques et les grands modèles de langage génériques permet d'exploiter efficacement les dossiers médicaux électroniques non structurés pour une stratification clinique précise.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van Es2026-03-11🤖 cs.AI

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Ce papier présente AutoViVQA, un grand ensemble de données construit automatiquement pour le Questionnement Visuel en vietnamien, et explore l'utilisation d'architectures basées sur les transformers ainsi que l'évaluation de différentes métriques automatiques pour améliorer l'alignement avec le jugement humain dans ce contexte multilingue.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Le papier présente ActiveUltraFeedback, un pipeline d'apprentissage actif modulaire qui optimise la génération de données de préférence pour l'alignement des modèles de langage en sélectionnant dynamiquement les réponses les plus informatives, permettant d'obtenir des performances supérieures avec jusqu'à six fois moins de données annotées que les méthodes statiques.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Le papier présente Mousse, un nouvel optimiseur qui améliore l'algorithme Muon en intégrant une estimation de la courbure via Shampoo pour adapter les mises à jour spectrales aux paysages d'optimisation anisotropes des réseaux de neurones, réduisant ainsi le nombre d'étapes d'entraînement d'environ 12 % avec un surcoût computationnel négligeable.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Le papier présente MUGEN, une nouvelle référence évaluant la compréhension multi-audio des grands modèles audio-langage, révélant leurs limites face à l'augmentation du nombre d'entrées et démontrant que des stratégies d'inférence comme la cohérence auto-permutative et le raisonnement en chaîne améliorent significativement leurs performances.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Ce papier présente CVS, une méthode de sélection de données sans entraînement qui identifie les échantillons nécessitant un raisonnement conjoint vision-langage en mesurant l'impact de la question sur la validité d'une réponse, permettant ainsi d'améliorer les performances des modèles tout en réduisant les coûts computationnels.

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang Li2026-03-11🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Ce papier propose RbtAct, une méthode qui utilise les réactions des auteurs lors des révisions (rebuttals) comme supervision implicite pour entraîner un modèle à générer des critiques de recherche plus concrètes et exploitables, soutenue par un nouveau jeu de données RMR-75K et une tâche de génération de feedback conditionnée par la perspective.

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Ce papier présente EXPLORE-Bench, un nouveau benchmark évaluant la capacité des modèles de langage multimodaux à prédire les scènes finales d'actions à long terme dans des vidéos à la première personne, révélant ainsi un écart significatif par rapport aux performances humaines et l'importance du raisonnement étape par étape.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

Le papier présente World2Mind, une boîte à outils d'intelligence spatiale sans entraînement qui améliore le raisonnement allocentrique des modèles fondationnels en construisant des cartes cognitives structurées et un arbre spatial allocentrique, permettant même aux modèles purement textuels d'atteindre des performances proches de celles des modèles multimodaux avancés.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Cette étude démontre que l'inférence basée sur la simulation (SBI) est une méthode prometteuse pour affiner les paramètres des modèles d'interactions neutrino-noyau, surpassant légèrement les réglages empiriques existants du générateur GENIE et permettant même une approximation équitable d'un autre simulateur, NuWro.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Ce papier présente MITRA, un assistant IA basé sur la génération augmentée par récupération (RAG) et hébergé localement pour garantir la confidentialité, conçu afin d'aider les chercheurs des collaborations physiques à naviguer efficacement dans la vaste documentation interne en utilisant un pipeline automatisé d'extraction de texte et une architecture de base de données vectorielle à deux niveaux.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI