cs.LG articles | Gist.Science

The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology

En adoptant une approche interventionnelle, cette étude démontre que l'élimination des degrés de liberté architecturaux liés à la magnitude et au routage de l'attention permet de supprimer le phénomène de « grokking » (généralisation retardée) dans les modèles de Transformers entraînés à l'addition modulaire, en alignant les biais géométriques de l'architecture sur les symétries intrinsèques de la tâche.

Alper Yıldırım2026-03-06🤖 cs.AI

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Ce papier présente ASR-TRA, un cadre d'adaptation test-temps par apprentissage par renforcement qui améliore la robustesse des systèmes de reconnaissance vocale face aux bruits et accents grâce à des récompenses sémantiques audio-texte, évitant ainsi les biais de confirmation des méthodes existantes.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity

SlideSparse est le premier système permettant d'accélérer les modèles de langage à grande échelle sur des GPU grand public en exploitant les cœurs tensoriels NVIDIA pour des motifs de parcimonie $(2N-2):2N$ (comme 6:8) qui préservent la précision, grâce à une décomposition par fenêtre glissante et une élévation d'activation intégrée à vLLM.

Hanyong Shao, Yingbo Hao, Ting Song + 10 more2026-03-06🤖 cs.LG

Recursive Inference Machines for Neural Reasoning

Cet article présente les Recursive Inference Machines (RIMs), un cadre de raisonnement neuronal qui intègre des mécanismes d'inférence récursive pour améliorer les performances des modèles existants comme les TRMs sur des tâches complexes telles que les défis ARC-AGI et le Sudoku, tout en surpassant les méthodes actuelles pour la classification de données tabulaires.

Mieszko Komisarczyk, Saurabh Mathur, Maurice Kraus + 2 more2026-03-06🤖 cs.AI

A Behaviour-Aware Federated Forecasting Framework for Distributed Stand-Alone Wind Turbines

Cet article propose un cadre d'apprentissage fédéré en deux étapes qui regroupe les éoliennes selon leur comportement à long terme via une initialisation DRS et un raffinement auto-récurrent, permettant d'entraîner des modèles LSTM spécifiques à chaque groupe tout en préservant la confidentialité des données et en surpassant les méthodes de partitionnement géographique.

Bowen Li, Xiufeng Liu, Maria Sinziiana Astefanoaei2026-03-06🤖 cs.LG

Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartography

Cet article propose un cadre d'audit robuste pour les systèmes de reconnaissance vocale qui dépasse le taux d'erreur de mot en introduisant l'indice de difficulté d'échantillon et des métriques sémantiques pour révéler et atténuer les biais systémiques et le « coût de la diversité » imposé aux locuteurs marginalisés.

Ting-Hui Cheng, Line H. Clemmensen, Sneha Das2026-03-06🤖 cs.LG

Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts

Ce papier présente le Whisperer, un cadre d'incitation visuelle qui améliore l'OCR figé en apprenant des préprocesseurs basés sur la diffusion via un curriculum d'imitation comportementale, réduisant ainsi significativement le taux d'erreur de caractères sans modifier les poids du modèle.

Samandar Samandarov, Nazirjon Ismoiljonov, Abdullah Sattorov + 1 more2026-03-06🤖 cs.AI

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Cette étude démontre que pour optimiser la détection hors distribution dans les Vision Transformers, il est préférable de combiner l'analyse des couches intermédiaires et des modules spécifiques, en privilégiant les activations du réseau feed-forward lors de forts décalages de distribution et les sorties normalisées de l'attention multi-têtes lorsque le décalage est faible.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

Bayesian Supervised Causal Clustering

Cet article présente la méthode de regroupement causal supervisé bayésien (BSCC), qui identifie des sous-groupes de patients homogènes en fonction de leurs profils de covariables et de leurs effets de traitement pour améliorer la prise de décision personnalisée, en validant son efficacité sur des données simulées et réelles issues du troisième essai international sur l'AVC.

Luwei Wang, Nazir Lone, Sohan Seth2026-03-06🤖 cs.LG

Knowledge Divergence and the Value of Debate for Scalable Oversight

Cet article établit un cadre formel reliant le débat et l'apprentissage par renforcement à partir de retours d'IA (RLAIF) en démontrant que la valeur du débat pour la surveillance évolue selon une transition de phase géométrique dépendant de la divergence des connaissances entre les modèles, passant d'une redondance à un avantage essentiel lorsque leurs informations sont complémentaires.

Robin Young2026-03-06🤖 cs.LG

Latent Policy Steering through One-Step Flow Policies

Ce papier propose Latent Policy Steering (LPS), une méthode d'apprentissage par renforcement hors ligne qui améliore les performances robotiques en évitant le compromis entre maximisation du retour et contraintes comportementales grâce à une optimisation de politique latente guidée directement par des gradients d'espace d'action original via un flux MeanFlow différenciable, éliminant ainsi le besoin de critiques latents approximatifs et de réglages hyperparamétriques sensibles.

Hokyun Im, Andrey Kolobov, Jianlong Fu + 1 more2026-03-06🤖 cs.LG

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Ce papier présente WavSLM, un modèle de langage vocal qui, grâce à la distillation de WavLM et à une prédiction autoregressive sur un seul flux de tokens, parvient à générer de la parole cohérente en modélisant conjointement les informations sémantiques et acoustiques sans aucune supervision textuelle.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

How important are the genes to explain the outcome - the asymmetric Shapley value as an honest importance metric for high-dimensional features

Cet article propose l'utilisation des valeurs de Shapley asymétriques comme métrique honnête pour quantifier l'importance des gènes dans les modèles prédictifs cliniques à haute dimension, en tenant compte de la collinéarité et des dépendances directionnelles, et présente des algorithmes efficaces illustrés par la prédiction de la survie sans progression dans le cancer colorectal.

Mark A. van de Wiel, Jeroen Goedhart, Martin Jullum + 1 more2026-03-06🤖 cs.LG

GALACTIC: Global and Local Agnostic Counterfactuals for Time-series Clustering

Ce papier présente GALACTIC, le premier cadre unifié générant des explications contrefactuelles à la fois locales et globales pour le clustering de séries temporelles non supervisé, en utilisant une optimisation ciblée au niveau des instances et une sélection de résumés globaux basée sur la longueur de description minimale (MDL) pour offrir des explications plus concises et interprétables.

Christos Fragkathoulas, Eleni Psaroudaki, Themis Palpanas + 1 more2026-03-06🤖 cs.AI

FairFinGAN: Fairness-aware Synthetic Financial Data Generation

Cet article présente FairFinGAN, un cadre basé sur les WGAN qui génère des données financières synthétiques équilibrées en intégrant des contraintes d'équité directement dans le processus d'entraînement, garantissant ainsi à la fois l'atténuation des biais et la préservation de l'utilité des données pour les tâches prédictives.

Tai Le Quy, Dung Nguyen Tuan, Trung Nguyen Thanh + 3 more2026-03-06🤖 cs.LG

Bayes with No Shame: Admissibility Geometries of Predictive Inference

Cet article démontre que l'admissibilité en inférence prédictive est irréductiblement relative au critère choisi, en établissant que quatre géométries distinctes (dominance de Blackwell, validité à tout instant, couverture marginale et approche de Cesàro) définissent des classes de procédures non imbriquées, chacune possédant son propre certificat d'optimalité et ses contraintes géométriques incompatibles.

Nicholas G. Polson, Daniel Zantedeschi2026-03-06🔢 math

On the Statistical Optimality of Optimal Decision Trees

Cet article établit une théorie statistique complète pour les arbres de décision à minimisation du risque empirique, en démontrant leur optimalité via de nouvelles inégalités-oracle et des taux minimax sur un espace fonctionnel capturant la parcimonie, l'anisotropie et l'hétérogénéité spatiale.

Zineng Xu, Subhroshekhar Ghosh, Yan Shuo Tan2026-03-06🔢 math

Preserving Continuous Symmetry in Discrete Spaces: Geometric-Aware Quantization for SO(3)-Equivariant GNNs

Cet article propose le cadre de quantification géométriquement consciente (GAQ), qui préserve rigoureusement la symétrie SO(3) dans les réseaux de neurones graphiques équivariants grâce à une quantification découplée et à des stratégies d'entraînement adaptées, permettant ainsi d'accélérer les simulations de dynamique moléculaire tout en maintenant une précision équivalente aux modèles en virgule flottante.

Haoyu Zhou, Ping Xue, Hao Zhang + 1 more2026-03-06🤖 cs.LG

InfoFlow KV: Information-Flow-Aware KV Recomputation for Long Context

Ce papier propose InfoFlow KV, une méthode qui traite la recomputation sélective des caches KV comme un problème de flux d'information pour identifier les tokens pertinents via un signal de norme d'attention et réorganiser les chunks, améliorant ainsi l'efficacité du RAG pour les contextes longs.

Xin Teng, Canyu Zhang, Shaoyi Zheng + 3 more2026-03-06🤖 cs.LG

Learning Causal Structure of Time Series using Best Order Score Search

Cet article présente TS-BOSS, une méthode évolutive de découverte causale pour les séries temporelles multivariées qui étend l'algorithme BOSS aux réseaux bayésiens dynamiques en garantissant théoriquement sa validité et en démontrant une supériorité empirique, notamment dans les régimes à forte autocorrélation.

Irene Gema Castillo Mansilla, Urmi Ninad2026-03-06🤖 cs.AI

← Précédent Suivant →