cs.AI articles | Gist.Science

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

Ce papier présente le benchmark « BiasBusters » pour révéler et atténuer les biais de sélection d'outils dans les agents LLM, démontrant que ces biais sont principalement pilotés par l'alignement sémantique et l'exposition pré-entraînement, tout en proposant une stratégie de mitigation efficace.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

Ce papier présente MonitorVLM, un cadre vision-langage innovant qui améliore considérablement la détection automatique des violations de sécurité dans les opérations minières grâce à un jeu de données spécifique, un module de filtrage des clauses et un module d'agrandissement des comportements, surpassant ainsi les modèles de base non affinés.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Cet article présente la première évaluation systématique de l'apprentissage auto-supervisé pour le stade du sommeil à partir d'EEG portables, démontrant qu'il permet d'atteindre une précision clinique supérieure à 80 % avec seulement 5 à 10 % de données étiquetées, surpassant ainsi les modèles supervisés et les modèles de fondation génériques.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Le papier propose HyWA, une méthode de détection d'activité vocale personnalisée qui utilise un hyper-réseau pour générer des poids adaptés à un locuteur cible, surpassant les techniques existantes en améliorant la précision moyenne et en facilitant le déploiement grâce à une architecture VAD réutilisable.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

Ce papier présente un cadre génératif explicable et conscient des biais qui intègre une fusion d'attention multimodale, l'attribution Grad-CAM++ et une boucle de rétroaction « Révéler pour Réviser », démontrant des performances supérieures et une robustesse accrue sur des benchmarks d'images et de texte pour des applications d'IA à haut risque.

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12🤖 cs.LG

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

Le papier présente MVCustom, un cadre de diffusion novateur qui résout le défi de la génération multi-vues personnalisée en assurant à la fois une cohérence géométrique stricte et une fidélité à l'identité du sujet grâce à un rendu de caractéristiques sensible à la profondeur et à une complétion latente cohérente.

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

Cet article propose un cadre théorique nommé « Hermite eigenstructure ansatz » (HEA) qui permet de prédire les courbes d'apprentissage de la régression à noyau sur des jeux de données réels en se basant uniquement sur la matrice de covariance empirique et une décomposition polynomiale de la fonction cible, en démontrant que les données d'images réelles sont suffisamment « gaussiennes » pour que cette approximation soit valide.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

KV Cache Transform Coding for Compact Storage in LLM Inference

Le papier présente KVTC, une méthode de codage par transformation légère qui compresse les caches KV des grands modèles de langage jusqu'à 20 fois pour optimiser la gestion de la mémoire GPU tout en préservant la précision du raisonnement et du contexte long.

Konrad Staniszewski, Adrian Łancucki2026-03-12💬 cs.CL

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study

Cette étude évalue la capacité de six systèmes d'IA à maîtriser la littérature scientifique sur la supraconductivité à haute température, démontrant que les modèles utilisant la génération augmentée par récupération (RAG) surpassent les modèles fermés en fournissant des réponses plus complètes et étayées par des preuves.

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

Ce papier présente DeepEyesV2, un modèle multimodal agentique qui améliore l'utilisation d'outils externes grâce à une pipeline d'entraînement en deux étapes combinant un démarrage à froid et un apprentissage par renforcement, et est évalué sur le nouveau benchmark RealX-Bench conçu pour les tâches de raisonnement multimodal complexes.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

Ce papier présente « What We Don't C », une méthode novatrice basée sur l'appariement de flux latents qui désenchevêtre les sous-espaces latents en supprimant explicitement les informations conditionnelles pour révéler des représentations résiduelles significatives et faciliter la découverte de facteurs de variation non capturés.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

Le papier propose D-GAP, une méthode d'augmentation de données agnostique du jeu de données et guidée par le gradient qui améliore la robustesse hors domaine en appliquant des perturbations ciblées et adaptatives à la fois dans l'espace des fréquences et dans l'espace des pixels.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

Ce papier présente STREAM-VAE, un modèle d'autoencodeur variationnel à double voie qui améliore la détection d'anomalies dans les données de télémétrie automobile en séparant explicitement les dérives lentes et les pics rapides pour éviter le lissage des signaux critiques.

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler2026-03-12🤖 cs.LG

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Ce papier présente REMSA, un agent intelligent capable de sélectionner automatiquement les modèles de fondation les plus adaptés aux tâches de télédétection en interprétant des requêtes naturelles et en tenant compte des contraintes techniques, grâce à une base de données structurée de plus de 160 modèles et validé par un benchmark expert.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Cet article présente un cadre d'oubli sélectif hiérarchique à double stratégie qui, en combinant des mises à jour de gradient géométriquement contraintes et des interventions au niveau des tokens, permet d'effacer efficacement des connaissances médicales spécifiques tout en préservant les compétences fondamentales et la confidentialité des données sensibles.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Le papier présente CostNav, le premier benchmark ancré dans la physique qui évalue la viabilité économique des agents d'IA physiques en intégrant des données financières et réglementaires réelles, révélant ainsi que les méthodes actuelles de navigation, bien que performantes sur des tâches simplifiées, génèrent toutes des pertes économiques dans des scénarios commerciaux complexes.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Ce papier présente IndiMathBench, un benchmark de 312 théorèmes Lean 4 vérifiés par des experts et issus des Olympiades indiennes de mathématiques, conçu pour évaluer les défis persistants de l'autoformalisation et de la preuve de théorèmes par les modèles de langage actuels.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Ce papier propose C3, une méthode d'quantification de l'incertitude qui permet aux modèles de génération vidéo contrôlable d'estimer et de visualiser avec précision leur propre fiabilité au niveau des sous-patchs, afin de détecter les hallucinations et d'améliorer la sécurité dans des applications comme la robotique.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Le framework Trio propose une approche de découverte moléculaire en boucle fermée intégrant la modélisation linguistique, l'apprentissage par renforcement et la recherche arborescente pour générer des ligands ciblés à la fois valides, synthétisables et dotés d'une affinité de liaison améliorée, surpassant ainsi les méthodes de l'état de l'art.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

Cet article propose des variantes de forêts aléatoires basées sur le principe de minimisation du risque maximal (MaxRM) pour améliorer la généralisation hors distribution, en fournissant des algorithmes efficaces, des preuves de consistance statistique et des garanties théoriques pour divers risques, y compris le regret.

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat

← Précédent Suivant →

cs.AI