cs.LG articles | Gist.Science

Stable-LoRA: Stabilizing Feature Learning of Low-Rank Adaptation

Ce papier propose Stable-LoRA, une stratégie d'optimisation par rétrécissement des poids qui stabilise l'apprentissage des caractéristiques dans la méthode LoRA en éliminant les instabilités causées par l'initialisation non nulle, tout en surpassant les méthodes de base sans coût mémoire supplémentaire.

Yize Wu, Ke Gao, Ling Li + 1 more2026-03-06🤖 cs.AI

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

Cet article propose une méthode d'élagage de vocabulaire pour les modèles de brouillon dans le cadre de la décodage spéculatif, qui optimise un compromis entre la couverture des tokens et la latence afin d'accélérer l'inférence des grands modèles de langage, en particulier sur des tâches spécifiques à un domaine.

Ofir Ben Shoham2026-03-06🤖 cs.AI

Early Warning of Intraoperative Adverse Events via Transformer-Driven Multi-Label Learning

Cet article présente IAENet, un cadre d'apprentissage multi-étiquettes basé sur Transformer qui intègre des données cliniques hétérogènes et une nouvelle fonction de perte pour prédire avec précision six types d'événements indésirables peropératoires, surpassant ainsi les méthodes existantes pour améliorer la sécurité des patients.

Xueyao Wang, Xiuding Cai, Honglin Shang + 2 more2026-03-06🤖 cs.AI

KARL: Knowledge Agents via Reinforcement Learning

Ce papier présente KARL, un système d'agents de recherche d'entreprise entraînés par apprentissage par renforcement multi-tâches et des données synthétiques, qui atteint des performances de pointe sur une suite d'évaluation diversifiée tout en surpassant les modèles fermés les plus avancés en termes de compromis coût-qualité et de latence.

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal + 23 more2026-03-06🤖 cs.AI

Learning Optimal Individualized Decision Rules with Conditional Demographic Parity

Cet article propose un cadre novateur pour estimer des règles de décision individualisées optimales tout en intégrant des contraintes de parité démographique et de parité démographique conditionnelle, garantissant ainsi l'équité sans sacrifier l'efficacité computationnelle ni la performance théorique.

Wenhai Cui, Wen Su, Donglin Zeng + 1 more2026-03-06🤖 cs.LG

The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology

En adoptant une approche interventionnelle, cette étude démontre que l'élimination des degrés de liberté architecturaux liés à la magnitude et au routage de l'attention permet de supprimer le phénomène de « grokking » (généralisation retardée) dans les modèles de Transformers entraînés à l'addition modulaire, en alignant les biais géométriques de l'architecture sur les symétries intrinsèques de la tâche.

Alper Yıldırım2026-03-06🤖 cs.AI

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Ce papier présente ASR-TRA, un cadre d'adaptation test-temps par apprentissage par renforcement qui améliore la robustesse des systèmes de reconnaissance vocale face aux bruits et accents grâce à des récompenses sémantiques audio-texte, évitant ainsi les biais de confirmation des méthodes existantes.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity

SlideSparse est le premier système permettant d'accélérer les modèles de langage à grande échelle sur des GPU grand public en exploitant les cœurs tensoriels NVIDIA pour des motifs de parcimonie $(2N-2):2N$ (comme 6:8) qui préservent la précision, grâce à une décomposition par fenêtre glissante et une élévation d'activation intégrée à vLLM.

Hanyong Shao, Yingbo Hao, Ting Song + 10 more2026-03-06🤖 cs.LG

Recursive Inference Machines for Neural Reasoning

Cet article présente les Recursive Inference Machines (RIMs), un cadre de raisonnement neuronal qui intègre des mécanismes d'inférence récursive pour améliorer les performances des modèles existants comme les TRMs sur des tâches complexes telles que les défis ARC-AGI et le Sudoku, tout en surpassant les méthodes actuelles pour la classification de données tabulaires.

Mieszko Komisarczyk, Saurabh Mathur, Maurice Kraus + 2 more2026-03-06🤖 cs.AI

A Behaviour-Aware Federated Forecasting Framework for Distributed Stand-Alone Wind Turbines

Cet article propose un cadre d'apprentissage fédéré en deux étapes qui regroupe les éoliennes selon leur comportement à long terme via une initialisation DRS et un raffinement auto-récurrent, permettant d'entraîner des modèles LSTM spécifiques à chaque groupe tout en préservant la confidentialité des données et en surpassant les méthodes de partitionnement géographique.

Bowen Li, Xiufeng Liu, Maria Sinziiana Astefanoaei2026-03-06🤖 cs.LG

Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartography

Cet article propose un cadre d'audit robuste pour les systèmes de reconnaissance vocale qui dépasse le taux d'erreur de mot en introduisant l'indice de difficulté d'échantillon et des métriques sémantiques pour révéler et atténuer les biais systémiques et le « coût de la diversité » imposé aux locuteurs marginalisés.

Ting-Hui Cheng, Line H. Clemmensen, Sneha Das2026-03-06🤖 cs.LG

Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts

Ce papier présente le Whisperer, un cadre d'incitation visuelle qui améliore l'OCR figé en apprenant des préprocesseurs basés sur la diffusion via un curriculum d'imitation comportementale, réduisant ainsi significativement le taux d'erreur de caractères sans modifier les poids du modèle.

Samandar Samandarov, Nazirjon Ismoiljonov, Abdullah Sattorov + 1 more2026-03-06🤖 cs.AI

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Cette étude démontre que pour optimiser la détection hors distribution dans les Vision Transformers, il est préférable de combiner l'analyse des couches intermédiaires et des modules spécifiques, en privilégiant les activations du réseau feed-forward lors de forts décalages de distribution et les sorties normalisées de l'attention multi-têtes lorsque le décalage est faible.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

Bayesian Supervised Causal Clustering

Cet article présente la méthode de regroupement causal supervisé bayésien (BSCC), qui identifie des sous-groupes de patients homogènes en fonction de leurs profils de covariables et de leurs effets de traitement pour améliorer la prise de décision personnalisée, en validant son efficacité sur des données simulées et réelles issues du troisième essai international sur l'AVC.

Luwei Wang, Nazir Lone, Sohan Seth2026-03-06🤖 cs.LG

Knowledge Divergence and the Value of Debate for Scalable Oversight

Cet article établit un cadre formel reliant le débat et l'apprentissage par renforcement à partir de retours d'IA (RLAIF) en démontrant que la valeur du débat pour la surveillance évolue selon une transition de phase géométrique dépendant de la divergence des connaissances entre les modèles, passant d'une redondance à un avantage essentiel lorsque leurs informations sont complémentaires.

Robin Young2026-03-06🤖 cs.LG

Latent Policy Steering through One-Step Flow Policies

Ce papier propose Latent Policy Steering (LPS), une méthode d'apprentissage par renforcement hors ligne qui améliore les performances robotiques en évitant le compromis entre maximisation du retour et contraintes comportementales grâce à une optimisation de politique latente guidée directement par des gradients d'espace d'action original via un flux MeanFlow différenciable, éliminant ainsi le besoin de critiques latents approximatifs et de réglages hyperparamétriques sensibles.

Hokyun Im, Andrey Kolobov, Jianlong Fu + 1 more2026-03-06🤖 cs.LG

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Ce papier présente WavSLM, un modèle de langage vocal qui, grâce à la distillation de WavLM et à une prédiction autoregressive sur un seul flux de tokens, parvient à générer de la parole cohérente en modélisant conjointement les informations sémantiques et acoustiques sans aucune supervision textuelle.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

How important are the genes to explain the outcome - the asymmetric Shapley value as an honest importance metric for high-dimensional features

Cet article propose l'utilisation des valeurs de Shapley asymétriques comme métrique honnête pour quantifier l'importance des gènes dans les modèles prédictifs cliniques à haute dimension, en tenant compte de la collinéarité et des dépendances directionnelles, et présente des algorithmes efficaces illustrés par la prédiction de la survie sans progression dans le cancer colorectal.

Mark A. van de Wiel, Jeroen Goedhart, Martin Jullum + 1 more2026-03-06🤖 cs.LG

GALACTIC: Global and Local Agnostic Counterfactuals for Time-series Clustering

Ce papier présente GALACTIC, le premier cadre unifié générant des explications contrefactuelles à la fois locales et globales pour le clustering de séries temporelles non supervisé, en utilisant une optimisation ciblée au niveau des instances et une sélection de résumés globaux basée sur la longueur de description minimale (MDL) pour offrir des explications plus concises et interprétables.

Christos Fragkathoulas, Eleni Psaroudaki, Themis Palpanas + 1 more2026-03-06🤖 cs.AI

FairFinGAN: Fairness-aware Synthetic Financial Data Generation

Cet article présente FairFinGAN, un cadre basé sur les WGAN qui génère des données financières synthétiques équilibrées en intégrant des contraintes d'équité directement dans le processus d'entraînement, garantissant ainsi à la fois l'atténuation des biais et la préservation de l'utilité des données pour les tâches prédictives.

Tai Le Quy, Dung Nguyen Tuan, Trung Nguyen Thanh + 3 more2026-03-06🤖 cs.LG

← Précédent Suivant →