cs.LG articles | Gist.Science

How Well Do Multimodal Models Reason on ECG Signals?

Cet article présente un cadre reproductible pour évaluer le raisonnement des modèles multimodaux sur les signaux ECG en décomposant l'analyse en perception (vérification par code des structures temporelles) et déduction (alignement logique avec des critères cliniques structurés), permettant ainsi une évaluation scalable de la validité des traces de raisonnement.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

Cet article propose un cadre hybride combinant un modèle de Markov caché et un réseau de neurones profond pour inférer les états cachés des rivaux et optimiser la stratégie énergétique en Formule 1 2026, permettant ainsi de détecter des tactiques de contre-récolte dans un environnement partiellement observable.

Kalliopi Kleisarchaki2026-03-10🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

Ce rapport présente le système TCG CREST pour le défi DISPLACE-M, qui a atteint la sixième place en obtenant un taux d'erreur de diarisation de 9,21 % sur l'ensemble d'évaluation grâce à l'utilisation du système hybride Diarizen basé sur WavLM couplé à un algorithme de clustering hiérarchique agglomératif optimisé.

Nikhil Raghav, Md Sahidullah2026-03-10🤖 cs.LG

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Cette étude propose une pipeline de détection gating innovante qui améliore la robustesse et la généralisation de l'extraction de la forme d'onde de la surface glottique à partir de vidéolaryngoscopies haute vitesse, permettant ainsi une évaluation clinique fiable des biomarqueurs vocaux sur des plateformes diverses.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Cet article propose un cadre robuste combinant l'architecture hybride CoAtNet et la technique de « model soups » pour améliorer la classification des images du patrimoine culturel immatériel du delta du Mékong, atteignant des performances de pointe en réduisant la variance grâce à un ensemencement intelligent de checkpoints géométriquement diversifiés.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation

Cet article propose une méthode d'apprentissage TD par renforcement multi-agent personnalisée et à récompense moyenne, qui exploite une représentation linéaire partagée pour filtrer les signaux conflictuels et atteindre une accélération linéaire malgré l'hétérogénéité des environnements et l'échantillonnage de Markov.

Leo Muxing Wang, Pengkun Yang, Lili Su2026-03-10🤖 cs.LG

Embedding interpretable $\ell_1$ -regression into neural networks for uncovering temporal structure in cell imaging

Ce papier propose d'intégrer un modèle de régression vectorielle autorégressive interprétable et régularisé en $\ell_1$ au sein d'un autoencodeur convolutif pour extraire la dynamique temporelle sparse des données d'imagerie calcique, tout en séparant les informations spatiales statiques et en permettant la visualisation des régions spatiales contributives.

Fabian Kabus, Maren Hackenberg, Julia Hindel, Thibault Cholvin, Antje Kilias, Thomas Brox, Abhinav Valada, Marlene Bartos, Harald Binder2026-03-10🤖 cs.LG

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Cet article présente une méthode sans calcul de gradient, utilisant GramCol et un algorithme de sélection de caractéristiques pour générer des cartes d'attention motrices interprétables (IMAP) qui localisent spatio-temporellement les concepts de mouvement dans les Transformers de diffusion vidéo.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Ce papier propose CGL, un cadre d'apprentissage continu pour les agents d'interface graphique qui combine l'ajustement fin supervisé et l'apprentissage par renforcement via un mécanisme d'ajustement dynamique et une chirurgie des gradients pour surmonter l'oubli catastrophique lors de l'adaptation aux mises à jour fréquentes des applications.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

Cet article démontre théoriquement que la normalisation du second moment dans Adam permet une convergence à haute probabilité avec une dépendance en $\delta^{-1/2}$ , surpassant ainsi la dépendance minimale de $\delta^{-1}$ requise pour la méthode SGD.

Ruinan Jin, Yingbin Liang, Shaofeng Zou2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

Cette étude introduit la décomposition de sonde compositionnelle (CPD) pour démontrer que l'alignement de la tâche d'entraînement, plutôt que l'architecture du modèle, détermine la séparation linéaire des informations géométriques et compositionnelles dans les modèles de fondation atomistiques, tout en révélant un routage de l'information par symétrie au sein des représentations MACE.

Joshua Steier2026-03-10🤖 cs.LG

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

Ce papier présente XInsight, un cadre multi-agents inspiré par le counseling qui structure le soutien psychologique selon le paradigme « Exploration-Insight-Action » pour améliorer l'interprétabilité, la continuité et l'efficacité des applications de bien-être numérique, validé par une nouvelle plateforme d'évaluation appelée XInsight-Bench.

Fei Wang, Jiangnan Yang, Junjie Chen, Yuxin Liu, Kun Li, Yanyan Wei, Dan Guo, Meng Wang2026-03-10🤖 cs.LG

vLLM Hook v0: A Plug-in for Programming Model Internals on vLLM

Le papier présente vLLM Hook, un plug-in open-source permettant de programmer les états internes des modèles vLLM via des modes passif et actif pour faciliter des applications telles que la détection d'injections de prompts, l'amélioration du RAG et le pilotage d'activations.

Ching-Yun Ko, Pin-Yu Chen2026-03-10🤖 cs.LG

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

Ce papier présente l'Isotonic Layer, un cadre différentiable universel qui intègre un ajustement linéaire par morceaux dans les architectures neuronales pour garantir une cohérence monotone, corriger les biais contextuels et améliorer la calibration des systèmes de recommandation à grande échelle.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Cette étude révèle que les « attention sinks » sur le premier token émergent précocement lors de l'entraînement grâce à un mécanisme spécifique appelé « P0 Sink Circuit », qui permet d'identifier la position zéro sans information sémantique et pourrait servir d'indicateur de convergence du pré-entraînement.

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng Qiu2026-03-10🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

En utilisant des grammaires contextuelles probabilistes pour générer des corpus synthétiques, cette étude démontre que les structures hiérarchiques inhérentes au processus de génération des données constituent le facteur unificateur expliquant l'émergence de phénomènes mécanistes apparemment distincts dans les modèles de langage.

Jonas Rohweder, Subhabrata Dutta, Iryna Gurevych2026-03-10🤖 cs.LG

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

Le papier présente HEF (Hierarchical Embedding Fusion), une approche en deux étapes qui compresse les dépôts de code en une hiérarchie de vecteurs denses pour remplacer les longs contextes de récupération par des pseudo-jetons, permettant ainsi une génération de code assistée par récupération à faible latence avec une précision comparable aux méthodes existantes.

Nikita Sorokin, Ivan Sedykh, Valentin Malykh2026-03-10🤖 cs.LG

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

L'article propose FuzzingRL, une méthode combinant le fuzzing et l'affinement par renforcement pour générer automatiquement des requêtes adverses qui révèlent et exploitent les vulnérabilités des modèles de vision-langage en dégradant significativement leur précision.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Switchable Activation Networks

Ce papier présente SWAN (Switchable Activation Networks), un cadre innovant qui équipe chaque unité neuronale d'une porte binaire déterministe dépendante de l'entrée, permettant une allocation adaptative du calcul pour réduire la redondance et améliorer l'efficacité des modèles tout en préservant leur précision.

Laha Ale, Ning Zhang, Scott A. King, Pingzhi Fan2026-03-10🤖 cs.LG

Khatri-Rao Clustering for Data Summarization

Cet article propose une nouvelle approche de clustering, dite « Khatri-Rao », qui améliore la concision des résumés de données sans sacrifier leur précision en modélisant les centroïdes comme des interactions de protocentroïdes, et démontre son efficacité supérieure sur les algorithmes k-Means et le clustering profond.

Martino Ciaperoni, Collin Leiber, Aristides Gionis, Heikki Mannila2026-03-10🤖 cs.LG

← Précédent Suivant →

cs.LG