BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

Ce papier présente le benchmark « BiasBusters » pour révéler et atténuer les biais de sélection d'outils dans les agents LLM, démontrant que ces biais sont principalement pilotés par l'alignement sémantique et l'exposition pré-entraînement, tout en proposant une stratégie de mitigation efficace.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

Ce papier présente MonitorVLM, un cadre vision-langage innovant qui améliore considérablement la détection automatique des violations de sécurité dans les opérations minières grâce à un jeu de données spécifique, un module de filtrage des clauses et un module d'agrandissement des comportements, surpassant ainsi les modèles de base non affinés.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Cet article présente la première évaluation systématique de l'apprentissage auto-supervisé pour le stade du sommeil à partir d'EEG portables, démontrant qu'il permet d'atteindre une précision clinique supérieure à 80 % avec seulement 5 à 10 % de données étiquetées, surpassant ainsi les modèles supervisés et les modèles de fondation génériques.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Le papier propose HyWA, une méthode de détection d'activité vocale personnalisée qui utilise un hyper-réseau pour générer des poids adaptés à un locuteur cible, surpassant les techniques existantes en améliorant la précision moyenne et en facilitant le déploiement grâce à une architecture VAD réutilisable.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

Ce papier présente un cadre génératif explicable et conscient des biais qui intègre une fusion d'attention multimodale, l'attribution Grad-CAM++ et une boucle de rétroaction « Révéler pour Réviser », démontrant des performances supérieures et une robustesse accrue sur des benchmarks d'images et de texte pour des applications d'IA à haut risque.

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12🤖 cs.LG

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

Le papier présente MVCustom, un cadre de diffusion novateur qui résout le défi de la génération multi-vues personnalisée en assurant à la fois une cohérence géométrique stricte et une fidélité à l'identité du sujet grâce à un rendu de caractéristiques sensible à la profondeur et à une complétion latente cohérente.

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

Cet article propose un cadre théorique nommé « Hermite eigenstructure ansatz » (HEA) qui permet de prédire les courbes d'apprentissage de la régression à noyau sur des jeux de données réels en se basant uniquement sur la matrice de covariance empirique et une décomposition polynomiale de la fonction cible, en démontrant que les données d'images réelles sont suffisamment « gaussiennes » pour que cette approximation soit valide.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

Expert Evaluation of LLM World Models: A High-TcT_c Superconductivity Case Study

Cette étude évalue la capacité de six systèmes d'IA à maîtriser la littérature scientifique sur la supraconductivité à haute température, démontrant que les modèles utilisant la génération augmentée par récupération (RAG) surpassent les modèles fermés en fournissant des réponses plus complètes et étayées par des preuves.

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

Ce papier présente « What We Don't C », une méthode novatrice basée sur l'appariement de flux latents qui désenchevêtre les sous-espaces latents en supprimant explicitement les informations conditionnelles pour révéler des représentations résiduelles significatives et faciliter la découverte de facteurs de variation non capturés.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Ce papier présente REMSA, un agent intelligent capable de sélectionner automatiquement les modèles de fondation les plus adaptés aux tâches de télédétection en interprétant des requêtes naturelles et en tenant compte des contraintes techniques, grâce à une base de données structurée de plus de 160 modèles et validé par un benchmark expert.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Cet article présente un cadre d'oubli sélectif hiérarchique à double stratégie qui, en combinant des mises à jour de gradient géométriquement contraintes et des interventions au niveau des tokens, permet d'effacer efficacement des connaissances médicales spécifiques tout en préservant les compétences fondamentales et la confidentialité des données sensibles.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Le papier présente CostNav, le premier benchmark ancré dans la physique qui évalue la viabilité économique des agents d'IA physiques en intégrant des données financières et réglementaires réelles, révélant ainsi que les méthodes actuelles de navigation, bien que performantes sur des tâches simplifiées, génèrent toutes des pertes économiques dans des scénarios commerciaux complexes.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Ce papier propose C3, une méthode d'quantification de l'incertitude qui permet aux modèles de génération vidéo contrôlable d'estimer et de visualiser avec précision leur propre fiabilité au niveau des sous-patchs, afin de détecter les hallucinations et d'améliorer la sécurité dans des applications comme la robotique.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Le framework Trio propose une approche de découverte moléculaire en boucle fermée intégrant la modélisation linguistique, l'apprentissage par renforcement et la recherche arborescente pour générer des ligands ciblés à la fois valides, synthétisables et dotés d'une affinité de liaison améliorée, surpassant ainsi les méthodes de l'état de l'art.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI