Query-focused and Memory-aware Reranker for Long Context Processing

Les auteurs proposent un nouveau cadre de réordonnancement léger et efficace qui exploite les scores d'attention de modèles de petite taille pour estimer la pertinence des passages, surpassant les méthodes actuelles sur divers benchmarks, notamment LoCoMo, tout en permettant un apprentissage sans supervision explicite et des extensions flexibles.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

Ce papier présente Missing-by-Design (MBD), un cadre unifié pour l'analyse de sentiment multimodale réversible qui combine l'apprentissage de représentations structurées et une mise à jour paramétrique certifiable pour supprimer sélectivement des modalités de données sensibles tout en préservant les performances prédictives.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Ce papier présente AuditBench, un benchmark d'audit de l'alignement composé de 56 modèles de langage dotés de comportements cachés, qui permet d'évaluer l'efficacité des techniques d'audit via un agent investigateur et révèle des écarts significatifs entre les performances des outils en mode autonome et celles en mode agent, ainsi que l'influence des techniques d'entraînement sur la difficulté d'audit.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Le papier présente SkillCraft, une nouvelle norme d'évaluation conçue pour tester la capacité des agents LLM à acquérir et réutiliser des compétences composées (des « Skills ») dans des flux de travail complexes, démontrant que cette approche améliore considérablement l'efficacité et les taux de réussite.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Ce papier présente MultiGraSCCo, un benchmark multilingue d'anonymisation dans dix langues contenant plus de 2 500 annotations d'identifiants personnels, généré via une méthode de traduction neuronale adaptée culturellement pour faciliter le développement et l'évaluation de systèmes de protection des données médicales.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Cette étude évalue une stratégie de criblage sans étiquette pour les électrocatalyseurs à base de solutions solides complexes, démontrant que des embeddings de composition dérivés de textes scientifiques, notamment via un modèle Word2Vec léger, permettent de réduire efficacement l'espace des candidats tout en préservant les performances mesurées.

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Le papier présente SciTaRC, un benchmark expert de questions sur des données tabulaires scientifiques exigeant à la fois un raisonnement linguistique approfondi et des calculs complexes, révélant que les modèles d'IA actuels échouent massivement en raison d'un goulot d'étranglement universel lié à l'exécution fidèle des plans.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Le papier présente PathoScribe, un cadre unifié piloté par un grand modèle de langage (LLM) qui transforme les archives de pathologie statiques en une bibliothèque vivante et intelligente, permettant la recherche sémantique, la construction automatisée de cohortes et l'aide au diagnostic clinique avec une précision et une efficacité supérieures aux méthodes traditionnelles.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Cet article présente un cadre automatisé d'analyse thématique pour les données qualitatives cliniques qui combine un raffinement itératif du codebook avec un suivi complet de la provenance, démontrant des performances supérieures et une meilleure alignement avec les thèmes d'experts par rapport aux approches existantes.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Cet article propose un cadre de décision conscient de la confiance qui analyse une seule trajectoire de raisonnement pour sélectionner dynamiquement entre un chemin unique ou multiple, permettant de réduire les coûts d'inférence de jusqu'à 80 % tout en maintenant une précision comparable aux méthodes de cohérence auto-évaluée sur plusieurs trajectoires.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL