cs.LG articles | Gist.Science

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

Ce papier présente l'Isotonic Layer, un cadre différentiable universel qui intègre un ajustement linéaire par morceaux dans les architectures neuronales pour garantir une cohérence monotone, corriger les biais contextuels et améliorer la calibration des systèmes de recommandation à grande échelle.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Cette étude révèle que les « attention sinks » sur le premier token émergent précocement lors de l'entraînement grâce à un mécanisme spécifique appelé « P0 Sink Circuit », qui permet d'identifier la position zéro sans information sémantique et pourrait servir d'indicateur de convergence du pré-entraînement.

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng Qiu2026-03-10🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

En utilisant des grammaires contextuelles probabilistes pour générer des corpus synthétiques, cette étude démontre que les structures hiérarchiques inhérentes au processus de génération des données constituent le facteur unificateur expliquant l'émergence de phénomènes mécanistes apparemment distincts dans les modèles de langage.

Jonas Rohweder, Subhabrata Dutta, Iryna Gurevych2026-03-10🤖 cs.LG

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

Le papier présente HEF (Hierarchical Embedding Fusion), une approche en deux étapes qui compresse les dépôts de code en une hiérarchie de vecteurs denses pour remplacer les longs contextes de récupération par des pseudo-jetons, permettant ainsi une génération de code assistée par récupération à faible latence avec une précision comparable aux méthodes existantes.

Nikita Sorokin, Ivan Sedykh, Valentin Malykh2026-03-10🤖 cs.LG

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

L'article propose FuzzingRL, une méthode combinant le fuzzing et l'affinement par renforcement pour générer automatiquement des requêtes adverses qui révèlent et exploitent les vulnérabilités des modèles de vision-langage en dégradant significativement leur précision.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Switchable Activation Networks

Ce papier présente SWAN (Switchable Activation Networks), un cadre innovant qui équipe chaque unité neuronale d'une porte binaire déterministe dépendante de l'entrée, permettant une allocation adaptative du calcul pour réduire la redondance et améliorer l'efficacité des modèles tout en préservant leur précision.

Laha Ale, Ning Zhang, Scott A. King, Pingzhi Fan2026-03-10🤖 cs.LG

Khatri-Rao Clustering for Data Summarization

Cet article propose une nouvelle approche de clustering, dite « Khatri-Rao », qui améliore la concision des résumés de données sans sacrifier leur précision en modélisant les centroïdes comme des interactions de protocentroïdes, et démontre son efficacité supérieure sur les algorithmes k-Means et le clustering profond.

Martino Ciaperoni, Collin Leiber, Aristides Gionis, Heikki Mannila2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

Cette étude démontre que la duplication des données dans les corpus d'entraînement est dépendante de l'échelle, car les modèles de plus grande capacité deviennent progressivement sensibles aux duplications sémantiques plutôt qu'aux simples correspondances de surface, ce qui entraîne une dégradation rapide des performances et nécessite de nouvelles lois d'échelle pour prédire correctement l'apprentissage à grande échelle.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Cette étude propose un score de confiance normalisé pour détecter les erreurs des grands modèles de langage, révèle que l'apprentissage par renforcement induit une surconfiance contrairement au fine-tuning supervisé, et démontre l'efficacité d'une post-optimisation par distillation pour restaurer la fiabilité de ces modèles dans des tâches critiques.

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

Ce papier présente STAR, un transformateur d'ensemble amélioré par des biais d'attention temporels et de compatibilité variable pour traiter efficacement les séries temporelles cliniques asynchrones, surpassant les méthodes existantes sur des tâches de prédiction en soins intensifs tout en offrant des interprétabilités sur les interactions temporelles et entre variables.

Joohyung Lee, Kwanhyung Lee, Changhun Kim, Eunho Yang2026-03-10🤖 cs.LG

LegoNet: Memory Footprint Reduction Through Block Weight Clustering

Le papier propose LegoNet, une technique de compression sans réentraînement qui regroupe les poids des réseaux de neurones en blocs pour réduire l'empreinte mémoire de plus de 64 fois sans perte de précision, ou jusqu'à 128 fois avec une perte inférieure à 3 %.

Joseph Bingham, Noah Green, Saman Zonouz2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Cet article propose un cadre de benchmarking systématique pour l'allocation de ressources radio dans les réseaux C-V2X en utilisant l'apprentissage par renforcement profond multi-agents, où des jeux d'interférence progressifs et des données SUMO permettent d'isoler les défis clés et révèlent que la robustesse et la généralisation des politiques face à des topologies variées constituent l'obstacle principal, surpassant ainsi les approches basées sur la valeur.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Cet article présente la suite de cartes Two-Bridge, un benchmark open-source et léger conçu pour combler le fossé entre les mini-jeux et le jeu complet de StarCraft II, en isolant les compétences tactiques essentielles pour permettre une recherche en apprentissage par renforcement accessible sans coûts de calcul excessifs.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Cet article propose une méthode pratique combinant le test de randomisation conditionnelle (CRT) et le modèle fondamental TabPFN pour obtenir des valeurs p valides à échantillon fini afin d'évaluer l'importance des caractéristiques dans des modèles tabulaires, sans nécessiter de réentraînement ni d'hypothèses paramétriques.

Mohamed Salem2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Ce papier présente CapTrack, un cadre d'évaluation axé sur les capacités qui redéfinit l'oubli dans le post-entraînement des LLM comme une dérive comportementale systémique et révèle, via une étude à grande échelle, que ce phénomène affecte profondément la robustesse et les comportements par défaut, avec des impacts variables selon les algorithmes et les familles de modèles.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Ce papier présente DeepScope, une solution innovante basée sur l'apprentissage profond qui analyse instantanément des images microscopiques d'échantillons d'eau non incubés pour détecter la contamination fécale avec une précision de 93 % et un coût réduit à 0,44 $ par test, surpassant ainsi les exigences de l'UNICEF.

Sanjay Srinivasan2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Ce papier démontre que, contrairement aux domaines vérifiables comme les mathématiques, l'augmentation du calcul d'inférence par agrégation de consensus (type « sagesse des foules ») n'améliore pas la véracité des grands modèles de langage dans les domaines non vérifiés, car leurs erreurs sont fortement corrélées et renforcent les fausses croyances partagées plutôt que de révéler la vérité.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

L'article présente OptiRoulette, un méta-optimiseur stochastique qui sélectionne dynamiquement des règles de mise à jour lors de l'entraînement, permettant une convergence jusqu'à 5,3 fois plus rapide et une précision supérieure par rapport à AdamW sur plusieurs jeux de données d'images.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Cet article propose une représentation unifiée des modèles de diffusion et de l'appariement de flux via deux équations linéaires simples, révélant par une analyse théorique que la corrélation parfois faible entre les données bruitées et la cible prédite peut nuire au processus d'apprentissage de ces modèles.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Cet article propose le cadre Annealed Co-Generation (ACG), qui remplace la modélisation conjointe de haute dimension par une approche par blocs de paires de variables via des modèles de diffusion, permettant une génération multivariée cohérente et efficace pour des applications scientifiques comme la complétion de champs d'écoulement et la conception d'anticorps.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

← Précédent Suivant →