cs.LG articles | Gist.Science

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Cette étude démontre que l'utilisation de SAM-Audio pour débruiter la parole avant la transcription par Whisper, bien qu'améliorant la qualité acoustique, dégrade systématiquement les performances de reconnaissance automatique de la parole en mode zéro-shot, révélant ainsi un décalage fondamental entre la clarté perceptive pour l'humain et la robustesse pour la machine.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

Probabilistic Dreaming for World Models

Cette étude propose des améliorations probabilistes au modèle Dreamer permettant l'exploration parallèle d'états latents et le maintien d'hypothèses distinctes pour des futurs mutuellement exclusifs, ce qui se traduit par de meilleures performances et une variance réduite sur le domaine MPE SimpleTag.

Gavin Wong2026-03-06💻 cs

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Cet article propose une approche hybride combinant modélisation théorique et benchmarking empirique pour déterminer l'allocation optimale des ressources de calcul dans les inférences LLM préfixées-décomposées, en tenant compte des contraintes de débit total, des objectifs de niveau de service (SLO) et des caractéristiques des requêtes.

Luchang Li, Dongfang Li, Bozhao Gong + 1 more2026-03-06🔢 math

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Cette étude présente une évaluation systématique des méthodes de compression de réseaux de neurones (élagage, quantification et distillation de connaissances) pour la classification d'images hyperspectrales, démontrant qu'elles permettent de réduire significativement la taille et le coût computationnel des modèles tout en maintenant des performances de classification compétitives pour le déploiement sur des plateformes à ressources limitées.

Sai Shi2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Ce papier présente « Model Medicine », un cadre clinique novateur qui adapte les principes de la médecine biologique pour diagnostiquer, traiter et prévenir les dysfonctionnements des modèles d'IA grâce à une taxonomie structurée, un modèle comportemental empirique, un outil d'imagerie neuronale et des protocoles de soins standardisés.

Jihoon Jeong2026-03-06💻 cs

Count Bridges enable Modeling and Deconvolving Transcriptomic Data

Ce papier présente Count Bridges, un processus de pont stochastique sur les entiers qui permet la modélisation générative et la déconvolution de données transcriptomiques agrégées en traitant les comptages cellulaires individuels comme des variables latentes via une approche de type espérance-maximisation.

Nic Fishman, Gokul Gowri, Tanush Kumar + 4 more2026-03-06💻 cs

When Priors Backfire: On the Vulnerability of Unlearnable Examples to Pretraining

Cet article révèle que les exemples inapprenables (UE) deviennent vulnérables face aux modèles préentraînés, et propose la méthode BAIT pour rétablir leur efficacité en forçant le modèle à ignorer les connaissances sémantiques préexistantes et à se fier aux perturbations injectées.

Zhihao Li, Gezheng Xu, Jiale Cai + 5 more2026-03-06💻 cs

Distribution-Conditioned Transport

Cet article présente la distribution-conditioned transport (DCT), un cadre d'apprentissage qui conditionne les cartes de transport sur des embeddings de distributions pour généraliser à des paires de distributions inédites et améliorer les prévisions dans divers domaines biologiques.

Nic Fishman, Gokul Gowri, Paolo L. B. Fischer + 3 more2026-03-06💻 cs

Interactive Benchmarks

Cet article propose les « Interactive Benchmarks », un nouveau paradigme d'évaluation unifié qui mesure la capacité de raisonnement des modèles dans des processus interactifs sous contraintes budgétaires, démontrant ainsi que les benchmarks traditionnels sont insuffisants et qu'il existe encore d'importantes marges de progression dans les scénarios interactifs.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

Cet article présente CONE, un modèle hybride pré-entraîné qui encode les nombres, les intervalles et les gaussiennes avec leurs unités et attributs dans un espace vectoriel préservant la distance, démontrant ainsi des capacités de raisonnement numérique supérieures aux modèles de l'état de l'art sur des tâches complexes.

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov2026-03-06💻 cs

KindSleep: Knowledge-Informed Diagnosis of Obstructive Sleep Apnea from Oximetry

Le document présente KindSleep, un cadre d'apprentissage profond qui intègre des connaissances cliniques aux données d'oxymétrie et cliniques pour diagnostiquer avec précision et de manière transparente l'apnée obstructive du sommeil, surpassant les méthodes existantes sur de vastes ensembles de données.

Micky C Nnamdi, Wenqi Shi, Cheng Wan + 4 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Bien que la famille de modèles GPT-5 représente une avancée significative vers un raisonnement clinique multimodal intégré en surpassant GPT-4o dans la synthèse textuelle et l'analyse d'images, cette étude démontre qu'elle ne remplace pas encore les systèmes spécialisés dans des tâches de perception critique hautement spécifiques comme la neuroradiologie et la mammographie.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

ConTSG-Bench: A Unified Benchmark for Conditional Time Series Generation

Ce papier présente ConTSG-Bench, un benchmark unifié et à grande échelle conçu pour évaluer systématiquement les modèles de génération de séries temporelles conditionnelles à travers diverses modalités et niveaux d'abstraction sémantique, révélant ainsi les limites actuelles et les axes de recherche prioritaires dans ce domaine.

Shaocheng Lan, Shuqi Gu, Zhangzhi Xiong + 1 more2026-03-06💻 cs

Distributional Reinforcement Learning with Information Bottleneck for Uncertainty-Aware DRAM Equalization

Cet article propose un cadre d'apprentissage par renforcement distributionnel intégrant un goulot d'étranglement informationnel et une optimisation du risque conditionnel pour l'égalisation DRAM, permettant d'accélérer considérablement le processus tout en garantissant des performances optimales dans le pire des cas avec une quantification rigoureuse de l'incertitude.

Muhammad Usama, Dong Eui Chang2026-03-06💻 cs

Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning

Cet article présente la première caractérisation de l'équivalence distributionnelle et une méthode d'apprentissage sans hypothèses structurelles pour les modèles causaux cycliques linéaires non gaussiens avec variables latentes, en introduisant de nouvelles contraintes de rang d'arêtes pour identifier les graphes équivalents.

Haoyue Dai, Immanuel Albrecht, Peter Spirtes + 1 more2026-03-06💻 cs

Diffusion Policy through Conditional Proximal Policy Optimization

Cet article propose une méthode novatrice et efficace, nommée Diffusion Policy through Conditional Proximal Policy Optimization, qui permet d'entraîner des politiques de diffusion en apprentissage par renforcement on-policy en alignant l'itération de la politique sur le processus de diffusion, surmontant ainsi les défis de calcul de vraisemblance et permettant une génération d'actions multimodales performante.

Ben Liu, Shunpeng Yang, Hua Chen2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Cet article propose la Reconstruction Contrastive par Diffusion (DCR), une méthode qui intègre des signaux contrastifs dérivés des images reconstruites dans le processus de diffusion pour surmonter les limites des encodeurs visuels CLIP et équilibrer simultanément les capacités de discrimination et de perception des détails.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization

Cet article démontre théoriquement que les biais inductifs des réseaux de neurones convolutifs, à savoir la localité et le partage de poids, permettent une généralisation efficace sur des données sphériques en contournant la malédiction de la dimensionnalité, contrairement aux réseaux entièrement connectés qui échouent dans ce régime.

Tongtong Liang, Esha Singh, Rahul Parhi + 2 more2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Ce papier présente WhisperAlign, une solution combinant un découpage audio basé sur WhisperX et un affinage spécifique du domaine de Pyannote, pour améliorer la reconnaissance automatique de la parole et la diarisation dans des enregistrements bengalis longs et multi-locuteurs.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Quadratic polarity and polar Fenchel-Young divergences from the canonical Legendre polarity

Cet article établit un lien entre la polarité quadratique et les divergences de Fenchel-Young polaires en montrant que les polarités génériques peuvent être exprimées via la polarité de Legendre déformée et manipulées par algèbre linéaire, offrant ainsi une nouvelle compréhension de la dualité de référence en géométrie de l'information et une interprétation des divergences de Bregman totales.

Frank Nielsen, Basile Plus-Gourdon, Mahito Sugiyama2026-03-06💻 cs

← Précédent Suivant →