MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Ce papier présente MMTU, un benchmark à grande échelle comprenant plus de 28 000 questions sur 25 tâches réelles, conçu pour évaluer de manière exhaustive les capacités des modèles de langage à comprendre, raisonner et manipuler des données tabulaires au niveau expert, révélant ainsi des lacunes significatives même chez les modèles les plus avancés.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Ce papier présente EROICA, le premier système de débogage en ligne capable de diagnostiquer avec un impact minimal les problèmes de performance matériels et logiciels dans les clusters de GPU à grande échelle utilisés pour l'entraînement de modèles massifs.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan Zhai2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Ce papier présente BemaGANv2, un vocodeur basé sur les GAN optimisé pour la génération audio longue durée, qui améliore la fidélité et la cohérence temporelle grâce à l'intégration de modules AMP et d'une combinaison systématique de discriminateurs innovants comme le MED et le MRD.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback

Cet article propose deux algorithmes efficaces, Slate-GLM-OFU et Slate-GLM-TS, pour le problème des bandits contextuels logistiques à blocs (slate), qui atteignent une faible complexité computationnelle par round et un regret optimal grâce à une planification locale et un apprentissage global, tout en démontrant des performances supérieures aux méthodes de l'état de l'art sur des données synthétiques et dans la sélection d'exemples pour les modèles de langage.

Tanmay Goyal, Gaurav Sinha2026-03-10🤖 cs.LG

Sharpness-Aware Machine Unlearning

Ce papier propose une caractérisation de l'efficacité de la minimisation sensible à la netteté (SAM) dans l'effacement machine, démontrant que celle-ci améliore l'efficacité de l'effacement en réduisant l'entrelacement des caractéristiques et en renforçant la résistance aux attaques, tout en introduisant la méthode « Sharp MinMax » qui sépare l'apprentissage des signaux de rétention et d'oubli pour optimiser les performances.

Haoran Tang, Rajiv Khanna2026-03-10🤖 cs.LG

Noisy PDE Training Requires Bigger PINNs

Cette étude démontre que l'entraînement efficace des réseaux de neurones informés par la physique (PINNs) sur des données bruitées exige une taille de modèle suffisamment grande, établissant une limite inférieure sur le nombre de paramètres nécessaire pour réduire l'erreur empirique en dessous de la variance du bruit, indépendamment de l'augmentation du nombre d'échantillons.

Sebastien Andre-Sloan, Anirbit Mukherjee, Matthew Colbrook2026-03-10🤖 cs.LG

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

Ce papier présente TableEG, un cadre exploitant des modèles de langage de grande taille pour générer des erreurs authentiques dans des données tabulaires, comblant ainsi le fossé entre les erreurs synthétiques et réelles afin d'établir un benchmark robuste pour l'évaluation des techniques de nettoyage de données.

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin Tong2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Cet article propose MCULoRA, une nouvelle approche d'adaptation faible rang dynamique et découplée par modalité qui surpasse les méthodes existantes pour la reconnaissance des émotions en résolvant les conflits de gradients lors de l'apprentissage avec des données multimodales incomplètes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Weak-to-Strong Generalization with Failure Trajectories: A Tree-based Approach to Elicit Optimal Policy in Strong Models

Cet article propose une approche basée sur des « arbres de trajectoires » et la recherche arborescente Monte Carlo pour étendre la généralisation faible-vers-forte aux environnements de décision complexes, en permettant aux modèles puissants d'apprendre non seulement des succès mais aussi des échecs générés par des modèles faibles.

Ruimeng Ye, Zihan Wang, Yang Xiao, Zinan Ling, Manling Li, Bo Hui2026-03-10🤖 cs.LG

Exposing the Illusion of Fairness: Auditing Vulnerabilities to Distributional Manipulation Attacks

Cet article révèle comment un audité malveillant peut manipuler un échantillon de données pour simuler une conformité aux critères d'équité tout en restant statistiquement représentatif, et propose des méthodes pour détecter ces attaques et renforcer les vérifications de supervision.

Valentin Lafargue, Adriana Laurindo Monteiro, Emmanuelle Claeys, Laurent Risser, Jean-Michel Loubes2026-03-10🤖 cs.LG

Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models

Cette étude présente le cadre de « red-teaming » dynamique, automatique et systématique (DAS) qui révèle un écart critique entre les performances statiques et la fiabilité réelle des modèles de langage médicaux, démontrant que la majorité des modèles échouent à des tests de stress continus en matière de robustesse, de confidentialité, d'équité et d'hallucinations malgré leurs scores élevés sur les benchmarks traditionnels.

Jiazhen Pan (Cherise), Bailiang Jian (Cherise), Paul Hager (Cherise), Yundi Zhang (Cherise), Che Liu (Cherise), Friedrike Jungmann (Cherise), Hongwei Bran Li (Cherise), Chenyu You (Cherise), Junde Wu (Cherise), Jiayuan Zhu (Cherise), Fenglin Liu (Cherise), Yuyuan Liu (Cherise), Niklas Bubeck (Cherise), Christian Wachinger (Cherise), Chen (Cherise), Chen (Cherise), Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert2026-03-10🤖 cs.LG