Early Warning of Intraoperative Adverse Events via Transformer-Driven Multi-Label Learning

Cet article présente IAENet, un cadre d'apprentissage multi-étiquettes basé sur Transformer qui intègre des données cliniques hétérogènes et une nouvelle fonction de perte pour prédire avec précision six types d'événements indésirables peropératoires, surpassant ainsi les méthodes existantes pour améliorer la sécurité des patients.

Xueyao Wang, Xiuding Cai, Honglin Shang + 2 more2026-03-06🤖 cs.AI

The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology

En adoptant une approche interventionnelle, cette étude démontre que l'élimination des degrés de liberté architecturaux liés à la magnitude et au routage de l'attention permet de supprimer le phénomène de « grokking » (généralisation retardée) dans les modèles de Transformers entraînés à l'addition modulaire, en alignant les biais géométriques de l'architecture sur les symétries intrinsèques de la tâche.

Alper Yıldırım2026-03-06🤖 cs.AI

SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity

SlideSparse est le premier système permettant d'accélérer les modèles de langage à grande échelle sur des GPU grand public en exploitant les cœurs tensoriels NVIDIA pour des motifs de parcimonie (2N2):2N(2N-2):2N (comme 6:8) qui préservent la précision, grâce à une décomposition par fenêtre glissante et une élévation d'activation intégrée à vLLM.

Hanyong Shao, Yingbo Hao, Ting Song + 10 more2026-03-06🤖 cs.LG

Recursive Inference Machines for Neural Reasoning

Cet article présente les Recursive Inference Machines (RIMs), un cadre de raisonnement neuronal qui intègre des mécanismes d'inférence récursive pour améliorer les performances des modèles existants comme les TRMs sur des tâches complexes telles que les défis ARC-AGI et le Sudoku, tout en surpassant les méthodes actuelles pour la classification de données tabulaires.

Mieszko Komisarczyk, Saurabh Mathur, Maurice Kraus + 2 more2026-03-06🤖 cs.AI

A Behaviour-Aware Federated Forecasting Framework for Distributed Stand-Alone Wind Turbines

Cet article propose un cadre d'apprentissage fédéré en deux étapes qui regroupe les éoliennes selon leur comportement à long terme via une initialisation DRS et un raffinement auto-récurrent, permettant d'entraîner des modèles LSTM spécifiques à chaque groupe tout en préservant la confidentialité des données et en surpassant les méthodes de partitionnement géographique.

Bowen Li, Xiufeng Liu, Maria Sinziiana Astefanoaei2026-03-06🤖 cs.LG

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Cette étude démontre que pour optimiser la détection hors distribution dans les Vision Transformers, il est préférable de combiner l'analyse des couches intermédiaires et des modules spécifiques, en privilégiant les activations du réseau feed-forward lors de forts décalages de distribution et les sorties normalisées de l'attention multi-têtes lorsque le décalage est faible.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

Latent Policy Steering through One-Step Flow Policies

Ce papier propose Latent Policy Steering (LPS), une méthode d'apprentissage par renforcement hors ligne qui améliore les performances robotiques en évitant le compromis entre maximisation du retour et contraintes comportementales grâce à une optimisation de politique latente guidée directement par des gradients d'espace d'action original via un flux MeanFlow différenciable, éliminant ainsi le besoin de critiques latents approximatifs et de réglages hyperparamétriques sensibles.

Hokyun Im, Andrey Kolobov, Jianlong Fu + 1 more2026-03-06🤖 cs.LG

How important are the genes to explain the outcome - the asymmetric Shapley value as an honest importance metric for high-dimensional features

Cet article propose l'utilisation des valeurs de Shapley asymétriques comme métrique honnête pour quantifier l'importance des gènes dans les modèles prédictifs cliniques à haute dimension, en tenant compte de la collinéarité et des dépendances directionnelles, et présente des algorithmes efficaces illustrés par la prédiction de la survie sans progression dans le cancer colorectal.

Mark A. van de Wiel, Jeroen Goedhart, Martin Jullum + 1 more2026-03-06🤖 cs.LG

GALACTIC: Global and Local Agnostic Counterfactuals for Time-series Clustering

Ce papier présente GALACTIC, le premier cadre unifié générant des explications contrefactuelles à la fois locales et globales pour le clustering de séries temporelles non supervisé, en utilisant une optimisation ciblée au niveau des instances et une sélection de résumés globaux basée sur la longueur de description minimale (MDL) pour offrir des explications plus concises et interprétables.

Christos Fragkathoulas, Eleni Psaroudaki, Themis Palpanas + 1 more2026-03-06🤖 cs.AI