cs.LG articles | Gist.Science

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Ce papier présente MMTU, un benchmark à grande échelle comprenant plus de 28 000 questions sur 25 tâches réelles, conçu pour évaluer de manière exhaustive les capacités des modèles de langage à comprendre, raisonner et manipuler des données tabulaires au niveau expert, révélant ainsi des lacunes significatives même chez les modèles les plus avancés.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

Leveraging chaotic transients in the training of artificial neural networks

Cette étude démontre que l'entraînement des réseaux de neurones artificiels peut être accéléré en exploitant une région de taux d'apprentissage où la dynamique de l'optimisation bascule vers un état de chaos transitoire, favorisant un équilibre optimal entre exploration et exploitation.

Pedro Jiménez-González, Miguel C. Soriano, Lucas Lacasa2026-03-10🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Ce papier présente EROICA, le premier système de débogage en ligne capable de diagnostiquer avec un impact minimal les problèmes de performance matériels et logiciels dans les clusters de GPU à grande échelle utilisés pour l'entraînement de modèles massifs.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan Zhai2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Ce papier présente BemaGANv2, un vocodeur basé sur les GAN optimisé pour la génération audio longue durée, qui améliore la fidélité et la cohérence temporelle grâce à l'intégration de modules AMP et d'une combinaison systématique de discriminateurs innovants comme le MED et le MRD.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Le papier propose Co-LoRA, une méthode de fédéré personnalisé qui surmonte l'hétérogénéité des données et des architectures via une agrégation consciente de la pertinence des tâches et un module invariant en dimension, validée sur un nouveau benchmark multi-modal de 40 tâches.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback

Cet article propose deux algorithmes efficaces, Slate-GLM-OFU et Slate-GLM-TS, pour le problème des bandits contextuels logistiques à blocs (slate), qui atteignent une faible complexité computationnelle par round et un regret optimal grâce à une planification locale et un apprentissage global, tout en démontrant des performances supérieures aux méthodes de l'état de l'art sur des données synthétiques et dans la sélection d'exemples pour les modèles de langage.

Tanmay Goyal, Gaurav Sinha2026-03-10🤖 cs.LG

Sharpness-Aware Machine Unlearning

Ce papier propose une caractérisation de l'efficacité de la minimisation sensible à la netteté (SAM) dans l'effacement machine, démontrant que celle-ci améliore l'efficacité de l'effacement en réduisant l'entrelacement des caractéristiques et en renforçant la résistance aux attaques, tout en introduisant la méthode « Sharp MinMax » qui sépare l'apprentissage des signaux de rétention et d'oubli pour optimiser les performances.

Haoran Tang, Rajiv Khanna2026-03-10🤖 cs.LG

Kolmogorov-Arnold Energy Models: Fast, Interpretable Generative Modeling

Cet article présente le modèle d'énergie Kolmogorov-Arnold (KAEM), une nouvelle approche générative qui combine la rapidité et l'interprétabilité des modèles à priors simples avec la puissance expressive des modèles d'énergie, en exploitant une structure latente univariée pour permettre une inférence exacte et efficace.

Prithvi Raj2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Cet article propose une approche d'apprentissage semi-autosupervisé nommée GLMask, qui transforme la segmentation sémantique en segmentation d'instances avec un minimum d'annotation manuelle, atteignant des performances de pointe à la fois pour la détection d'épis de blé en agriculture et sur le jeu de données généraliste COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Cet article présente SamS, un algorithme innovant qui améliore l'optimisation directe par préférence (DPO) en adaptant dynamiquement la sélection des échantillons d'entraînement à chaque lot en fonction de l'état évolutif du modèle, sans modifier l'algorithme de base et avec un surcoût computationnel minimal.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

Le papier présente DemoDiffusion, une méthode simple permettant aux robots d'imiter une unique démonstration humaine pour accomplir des tâches de manipulation sans entraînement spécifique, en combinant un retargeting cinématique avec une politique de diffusion pré-entraînée pour atteindre un taux de réussite de 83,8 % sur des tâches variées.

Sungjae Park, Homanga Bharadhwaj, Shubham Tulsiani2026-03-10🤖 cs.LG

Adopting a human developmental visual diet yields robust, shape-based AI vision

En s'inspirant du développement visuel humain pour créer un « régime alimentaire visuel » évolutif, cette étude démontre que guider la manière dont une IA apprend permet de surmonter ses dépendances aux textures et d'obtenir une vision artificielle plus robuste, basée sur la forme et résistante aux perturbations.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Noisy PDE Training Requires Bigger PINNs

Cette étude démontre que l'entraînement efficace des réseaux de neurones informés par la physique (PINNs) sur des données bruitées exige une taille de modèle suffisamment grande, établissant une limite inférieure sur le nombre de paramètres nécessaire pour réduire l'erreur empirique en dessous de la variance du bruit, indépendamment de l'augmentation du nombre d'échantillons.

Sebastien Andre-Sloan, Anirbit Mukherjee, Matthew Colbrook2026-03-10🤖 cs.LG

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

Ce papier présente TableEG, un cadre exploitant des modèles de langage de grande taille pour générer des erreurs authentiques dans des données tabulaires, comblant ainsi le fossé entre les erreurs synthétiques et réelles afin d'établir un benchmark robuste pour l'évaluation des techniques de nettoyage de données.

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin Tong2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Cet article propose MCULoRA, une nouvelle approche d'adaptation faible rang dynamique et découplée par modalité qui surpasse les méthodes existantes pour la reconnaissance des émotions en résolvant les conflits de gradients lors de l'apprentissage avec des données multimodales incomplètes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Ce papier identifie le biais d'adhésion limitant les vérificateurs basés sur les MLLM et propose la méthode SGV, qui améliore significativement la détection des échecs et les performances d'agents autonomes en générant d'abord des priors indépendants avant d'évaluer les trajectoires.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Flow Matching Meets Biology and Life Science: A Survey

Cet article présente la première enquête complète sur les développements récents du flow matching et ses applications dans les domaines biologiques, couvrant la modélisation des séquences, la génération de molécules et la conception de protéines.

Zihao Li, Zhichen Zeng, Xiao Lin, Feihao Fang, Yanru Qu, Zhe Xu, Zhining Liu, Xuying Ning, Tianxin Wei, Ge Liu, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Weak-to-Strong Generalization with Failure Trajectories: A Tree-based Approach to Elicit Optimal Policy in Strong Models

Cet article propose une approche basée sur des « arbres de trajectoires » et la recherche arborescente Monte Carlo pour étendre la généralisation faible-vers-forte aux environnements de décision complexes, en permettant aux modèles puissants d'apprendre non seulement des succès mais aussi des échecs générés par des modèles faibles.

Ruimeng Ye, Zihan Wang, Yang Xiao, Zinan Ling, Manling Li, Bo Hui2026-03-10🤖 cs.LG

Exposing the Illusion of Fairness: Auditing Vulnerabilities to Distributional Manipulation Attacks

Cet article révèle comment un audité malveillant peut manipuler un échantillon de données pour simuler une conformité aux critères d'équité tout en restant statistiquement représentatif, et propose des méthodes pour détecter ces attaques et renforcer les vérifications de supervision.

Valentin Lafargue, Adriana Laurindo Monteiro, Emmanuelle Claeys, Laurent Risser, Jean-Michel Loubes2026-03-10🤖 cs.LG

Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models

Cette étude présente le cadre de « red-teaming » dynamique, automatique et systématique (DAS) qui révèle un écart critique entre les performances statiques et la fiabilité réelle des modèles de langage médicaux, démontrant que la majorité des modèles échouent à des tests de stress continus en matière de robustesse, de confidentialité, d'équité et d'hallucinations malgré leurs scores élevés sur les benchmarks traditionnels.

Jiazhen Pan (Cherise), Bailiang Jian (Cherise), Paul Hager (Cherise), Yundi Zhang (Cherise), Che Liu (Cherise), Friedrike Jungmann (Cherise), Hongwei Bran Li (Cherise), Chenyu You (Cherise), Junde Wu (Cherise), Jiayuan Zhu (Cherise), Fenglin Liu (Cherise), Yuyuan Liu (Cherise), Niklas Bubeck (Cherise), Christian Wachinger (Cherise), Chen (Cherise), Chen (Cherise), Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert2026-03-10🤖 cs.LG

← Précédent Suivant →