cs.LG articles | Gist.Science

Bayes with No Shame: Admissibility Geometries of Predictive Inference

Cet article démontre que l'admissibilité en inférence prédictive est irréductiblement relative au critère choisi, en établissant que quatre géométries distinctes (dominance de Blackwell, validité à tout instant, couverture marginale et approche de Cesàro) définissent des classes de procédures non imbriquées, chacune possédant son propre certificat d'optimalité et ses contraintes géométriques incompatibles.

Nicholas G. Polson, Daniel Zantedeschi2026-03-06🔢 math

On the Statistical Optimality of Optimal Decision Trees

Cet article établit une théorie statistique complète pour les arbres de décision à minimisation du risque empirique, en démontrant leur optimalité via de nouvelles inégalités-oracle et des taux minimax sur un espace fonctionnel capturant la parcimonie, l'anisotropie et l'hétérogénéité spatiale.

Zineng Xu, Subhroshekhar Ghosh, Yan Shuo Tan2026-03-06🔢 math

Preserving Continuous Symmetry in Discrete Spaces: Geometric-Aware Quantization for SO(3)-Equivariant GNNs

Cet article propose le cadre de quantification géométriquement consciente (GAQ), qui préserve rigoureusement la symétrie SO(3) dans les réseaux de neurones graphiques équivariants grâce à une quantification découplée et à des stratégies d'entraînement adaptées, permettant ainsi d'accélérer les simulations de dynamique moléculaire tout en maintenant une précision équivalente aux modèles en virgule flottante.

Haoyu Zhou, Ping Xue, Hao Zhang + 1 more2026-03-06🤖 cs.LG

InfoFlow KV: Information-Flow-Aware KV Recomputation for Long Context

Ce papier propose InfoFlow KV, une méthode qui traite la recomputation sélective des caches KV comme un problème de flux d'information pour identifier les tokens pertinents via un signal de norme d'attention et réorganiser les chunks, améliorant ainsi l'efficacité du RAG pour les contextes longs.

Xin Teng, Canyu Zhang, Shaoyi Zheng + 3 more2026-03-06🤖 cs.LG

Learning Causal Structure of Time Series using Best Order Score Search

Cet article présente TS-BOSS, une méthode évolutive de découverte causale pour les séries temporelles multivariées qui étend l'algorithme BOSS aux réseaux bayésiens dynamiques en garantissant théoriquement sa validité et en démontrant une supériorité empirique, notamment dans les régimes à forte autocorrélation.

Irene Gema Castillo Mansilla, Urmi Ninad2026-03-06🤖 cs.AI

Embedded Inter-Subject Variability in Adversarial Learning for Inertial Sensor-Based Human Activity Recognition

Cet article propose un cadre d'apprentissage antagoniste novateur qui intègre la variabilité inter-sujet pour générer des représentations de caractéristiques invariantes et améliorer la reconnaissance d'activités humaines via des capteurs inertiels portables.

Francisco M. Calatrava-Nicolás, Shoko Miyauchi, Vitor Fortes Rey + 3 more2026-03-06🤖 cs.LG

Robust Node Affinities via Jaccard-Biased Random Walks and Rank Aggregation

Le papier présente TopKGraphs, une méthode non paramétrique et interprétable qui estime la similarité entre les nœuds d'un graphe en combinant des marches aléatoires biaisées par la similarité de Jaccard avec une agrégation robuste de classements, surpassant ainsi les approches classiques dans divers scénarios de réseaux complexes.

Bastian Pfeifer, Michael G. Schimek2026-03-06🤖 cs.LG

On the Necessity of Learnable Sheaf Laplacians

Cet article remet en question la nécessité d'apprendre les applications de restriction dans les réseaux de neurones sur faisceaux en démontrant qu'une version simplifiée avec des applications fixes à l'identité atteint des performances comparables sur des graphes hétérophiles, suggérant ainsi que la complexité supplémentaire n'est pas justifiée par une réduction empirique du lissage excessif.

Ferran Hernandez Caralt, Mar GonzÃ lez i CatalÃ, Adrián Bazaga + 1 more2026-03-06🤖 cs.LG

Harnessing Synthetic Data from Generative AI for Statistical Inference

Cet article examine, d'un point de vue statistique, les possibilités et les limites de l'utilisation des données synthétiques générées par l'IA, en identifiant les hypothèses nécessaires pour une inférence valide et en proposant des recommandations pratiques pour éviter les biais et les pièges méthodologiques.

Ahmad Abdel-Azim, Ruoyu Wang, Xihong Lin2026-03-06🤖 cs.LG

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

Le papier présente MobileFetalCLIP, une méthode de distillation de connaissances répulsive sélective qui permet à un modèle étudiant léger de surpasser un modèle enseignant massif dans l'analyse d'échographies fœtales, rendant ainsi possible un déploiement en temps réel sur des appareils mobiles à ressources limitées.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

An interpretable prototype parts-based neural network for medical tabular data

Cet article présente un réseau de neurones interprétable conçu pour les données tabulaires médicales, qui utilise des parties prototypiques apprises pour fournir des prédictions transparentes alignées sur le langage clinique tout en maintenant des performances de classification compétitives.

Jacek Karolczak, Jerzy Stefanowski2026-03-06🤖 cs.LG

Ensembling Language Models with Sequential Monte Carlo

Cet article propose un cadre unifié pour l'assemblage de modèles de langage via des distributions $f$ -ensembles, en utilisant un algorithme de Monte Carlo séquentiel au niveau des octets pour surmonter les défis de la normalisation locale et des vocabulaires incompatibles, permettant ainsi d'obtenir de meilleures performances de génération que les méthodes d'agrégation traditionnelles.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

On-Policy Self-Distillation for Reasoning Compression

L'article présente OPSDC, une méthode d'auto-distillation en ligne qui permet aux modèles de raisonnement d'apprendre à être plus concis en se distillant eux-mêmes, réduisant ainsi considérablement le nombre de tokens générés tout en améliorant leur précision sur des tâches mathématiques complexes.

Hejian Sang, Yuanda Xu, Zhengze Zhou + 3 more2026-03-06🤖 cs.LG

Latent Wasserstein Adversarial Imitation Learning

Ce papier présente LWAIL, une nouvelle méthode d'apprentissage par imitation adversaire qui utilise un espace latent dynamique appris via une fonction de valeur conditionnée à l'intention pour permettre à un agent d'atteindre des performances expertes en n'utilisant que quelques épisodes d'expert sans accès aux actions.

Siqi Yang, Kai Yan, Alexander G. Schwing + 1 more2026-03-06🤖 cs.LG

Kraus Constrained Sequence Learning For Quantum Trajectories from Continuous Measurement

Cet article propose une méthode d'apprentissage de séquences quantiques utilisant une couche de sortie structurée en opérateurs de Kraus pour garantir des mises à jour d'états physiquement valides et améliorer la précision de l'estimation des trajectoires quantiques en régime non stationnaire, surpassant les modèles non contraints grâce à une architecture basée sur le LSTM.

Priyanshi Singh, Krishna Bhatia2026-03-06🤖 cs.LG

Thermodynamic Response Functions in Singular Bayesian Models

Ce papier établit un cadre thermodynamique unifié pour les modèles bayésiens singuliers, démontrant que le tempérage du posterior génère des fonctions de réponse qui relient les invariants géométriques (comme le seuil log canonique réel) aux critères de sélection de modèles (WAIC, WBIC) et révèlent des comportements de transition de phase liés à la réorganisation structurelle de la géométrie du posterior.

Sean Plummer2026-03-06🔢 math

SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Ce papier présente SurvHTE-Bench, le premier benchmark complet pour l'estimation des effets de traitement hétérogènes sur des données de survie censurées, offrant une suite de données synthétiques, semi-synthétiques et réelles permettant une évaluation rigoureuse et reproductible des méthodes causales dans ce domaine.

Shahriar Noroozizadeh, Xiaobin Shen, Jeremy C. Weiss + 1 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Cette étude révèle que les modèles de raisonnement peuvent manifester un « théâtre de raisonnement » performant, mais que le sondage des activations permet de détecter les véritables changements de croyance et d'arrêter la génération de tokens bien plus tôt, réduisant ainsi considérablement le coût computationnel sans sacrifier la précision.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Cette étude utilise des modèles de langage chinois censurés comme banc d'essai naturel pour évaluer des techniques d'élicitation de l'honnêteté et de détection de mensonges, démontrant que certaines méthodes augmentent les réponses véridiques et se transfèrent à d'autres modèles, bien qu'aucune ne supprime totalement les fausses réponses.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels

Cette étude propose un cadre novateur en trois étapes combinant des étiquettes imparfaites peu coûteuses, un pré-entraînement supervisé et un affinage auto-supervisé pour optimiser efficacement la résolution de problèmes complexes, réduisant ainsi considérablement les coûts tout en améliorant la précision et la faisabilité des solutions.

Khai Nguyen, Petros Ellinas, Anvita Bhagavathula + 1 more2026-03-06🔢 math

← Précédent Suivant →