Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Ce papier présente CVS, une méthode de sélection de données sans entraînement qui identifie les échantillons nécessitant un raisonnement conjoint vision-langage en mesurant l'impact de la question sur la validité d'une réponse, permettant ainsi d'améliorer les performances des modèles tout en réduisant les coûts computationnels.

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang Li2026-03-11🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Ce papier propose RbtAct, une méthode qui utilise les réactions des auteurs lors des révisions (rebuttals) comme supervision implicite pour entraîner un modèle à générer des critiques de recherche plus concrètes et exploitables, soutenue par un nouveau jeu de données RMR-75K et une tâche de génération de feedback conditionnée par la perspective.

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Ce papier présente EXPLORE-Bench, un nouveau benchmark évaluant la capacité des modèles de langage multimodaux à prédire les scènes finales d'actions à long terme dans des vidéos à la première personne, révélant ainsi un écart significatif par rapport aux performances humaines et l'importance du raisonnement étape par étape.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

Le papier présente World2Mind, une boîte à outils d'intelligence spatiale sans entraînement qui améliore le raisonnement allocentrique des modèles fondationnels en construisant des cartes cognitives structurées et un arbre spatial allocentrique, permettant même aux modèles purement textuels d'atteindre des performances proches de celles des modèles multimodaux avancés.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Cette étude démontre que l'inférence basée sur la simulation (SBI) est une méthode prometteuse pour affiner les paramètres des modèles d'interactions neutrino-noyau, surpassant légèrement les réglages empiriques existants du générateur GENIE et permettant même une approximation équitable d'un autre simulateur, NuWro.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Ce papier présente MITRA, un assistant IA basé sur la génération augmentée par récupération (RAG) et hébergé localement pour garantir la confidentialité, conçu afin d'aider les chercheurs des collaborations physiques à naviguer efficacement dans la vaste documentation interne en utilisant un pipeline automatisé d'extraction de texte et une architecture de base de données vectorielle à deux niveaux.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Ce papier présente SCENEBench, une nouvelle suite de benchmarks conçue pour évaluer la compréhension audio des grands modèles linguistiques au-delà de la reconnaissance de la parole, en se concentrant sur des cas d'usage réels liés à l'accessibilité et à l'industrie, tout en révélant des lacunes critiques dans les performances actuelles des modèles.

Laya Iyer, Angelina Wang, Sanmi Koyejo2026-03-11🤖 cs.AI

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Cet article présente le cadre DAPL, une méthode d'apprentissage par renforcement qui modélise explicitement les dynamiques induites par les contacts pour permettre à un robot d'acquérir une dextérité extrinsèque efficace dans des scènes encombrées, surpassant ainsi les approches existantes tant en simulation que dans le monde réel.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He Wang2026-03-11🤖 cs.AI

MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems

Le papier présente MedMASLab, un cadre unifié et une plateforme de benchmarking conçus pour standardiser l'évaluation des systèmes multi-agents médicaux multimodaux en intégrant des protocoles de communication normalisés, un évaluateur de raisonnement clinique automatisé et un vaste ensemble de données couvrant 11 systèmes d'organes, tout en révélant des fragilités critiques dans la transition entre les sous-domaines médicaux spécialisés.

Yunhang Qian, Xiaobin Hu, Jiaquan Yu, Siyang Xin, Xiaokun Chen, Jiangning Zhang, Peng-Tao Jiang, Jiawei Liu, Hongwei Bran Li2026-03-11🤖 cs.AI