cs.LG articles | Gist.Science

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Le papier présente VIP, une stratégie d'allocation de rollouts adaptative qui optimise l'efficacité de l'apprentissage par renforcement en ligne en attribuant dynamiquement le budget de calcul aux prompts les plus informatifs pour minimiser la variance du gradient, surpassant ainsi les méthodes d'allocation uniforme.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting

Cet article propose une nouvelle approche de la prévision des séries temporelles, appelée « prévision agentielle », qui dépasse le paradigme traditionnel centré sur le modèle en la reformulant comme un processus dynamique intégrant perception, planification, action, réflexion et mémoire pour permettre une adaptation continue et une interaction avec des outils.

Mingyue Cheng, Xiaoyu Tao, Qi Liu + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

Cet article démontre que les vecteurs de pilotage dans les grands modèles de langage sont fondamentalement non identifiables, car des perturbations orthogonales peuvent produire des effets comportementaux équivalents, révélant ainsi des limites inhérentes à l'interprétabilité de ces interventions.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

LatentChem introduit une interface de raisonnement latent qui découple le calcul chimique de la génération textuelle, permettant aux modèles d'effectuer des inférences complexes dans un espace continu pour obtenir des performances supérieures et une accélération significative par rapport aux méthodes traditionnelles basées sur la chaîne de pensée explicite.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

Beyond the Unit Hypersphere: Embedding Magnitude in Contrastive Learning

Ce papier démontre que l'apprentissage de la magnitude des embeddings, plutôt que de la simple similarité cosinus, améliore significativement les performances en recherche d'information et en RAG en exploitant des rôles distincts pour les magnitudes des requêtes et des documents, au détriment des tâches où les entrées sont interchangeables.

Xincan Feng, Taro Watanabe2026-03-06💻 cs

Supervised Metric Regularization Through Alternating Optimization for Multi-Regime Physics-Informed Neural Networks

Cet article propose le TAPINN, une architecture de réseaux de neurones informés par la physique qui utilise une régularisation métrique supervisée et une optimisation alternée pour surmonter les biais spectraux et les effondrements de modes lors de la modélisation de systèmes dynamiques à transitions de régime abruptes, comme le démontrent des résultats supérieurs sur l'oscillateur de Duffing.

Enzo Nicolas Spotorno, Josafat Ribeiro Leal, Antonio Augusto Frohlich2026-03-06🔬 physics

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

Cette étude empirique démontre que, malgré des performances compétitives sur certains résidus polynomiaux, les réseaux KAN intégrés dans des architectures HRPINN souffrent d'une fragilité hyperparamétrique et d'une instabilité qui les rendent généralement moins efficaces que les MLP pour la découverte de termes multiplicatifs et de couplages d'états dans les systèmes oscillatoires.

Enzo Nicolas Spotorno, Josafat Leal Filho, Antonio Augusto Medeiros Frohlich2026-03-06🔬 physics

Learn from Your Mistakes: Self-Correcting Masked Diffusion Models

Ce papier propose ProSeCo, un cadre d'apprentissage pour les modèles de diffusion masqués qui intègre des étapes de correction itératives afin de réviser les tokens déjà générés, réduisant ainsi l'accumulation d'erreurs et améliorant la qualité des échantillons tout en accélérant l'inférence.

Yair Schiff, Omer Belhasin, Roy Uziel + 5 more2026-03-06💻 cs

QTabGAN: A Hybrid Quantum-Classical GAN for Tabular Data Synthesis

Ce papier présente QTabGAN, un cadre hybride quantique-classique conçu pour générer des données tabulaires réalistes dans des contextes de données rares ou privées, démontrant une amélioration significative des performances par rapport aux modèles existants.

Subhangi Kumari, Rakesh Achutha, Vignesh Sivaraman2026-03-06⚛️ quant-ph

Out-of-Support Generalisation via Weight-Space Sequence Modelling

Ce papier présente WeightCaster, un cadre innovant qui reformule la généralisation hors-distribution comme une tâche de modélisation de séquence dans l'espace des poids pour produire des prédictions fiables et incertaines sans biais inductif explicite, surpassant les méthodes actuelles sur des données synthétiques et réelles.

Roussel Desmond Nzoyem2026-03-06💻 cs

Neural Network-Based Parameter Estimation of a Labour Market Agent-Based Model

Cette étude démontre qu'un cadre d'inférence basé sur les simulations utilisant des réseaux de neurones permet d'estimer efficacement les paramètres d'un modèle agent-based du marché du travail, surpassant les méthodes bayésiennes traditionnelles en précision et en rapidité.

M Lopes Alves, Joel Dyer, Doyne Farmer + 2 more2026-03-06💻 cs

Optimal training-conditional regret for online conformal prediction

Cet article propose des algorithmes de prédiction conforme en ligne, adaptés à la détection de dérive, qui atteignent un regret cumulatif conditionnel à l'entraînement optimal pour des flux de données non stationnaires, que les scores de non-conformité soient préentraînés ou mis à jour en ligne.

Jiadong Liang, Zhimei Ren, Yuxin Chen2026-03-06🔢 math

SubQuad: Near-Quadratic-Free Structure Inference with Distribution-Balanced Objectives in Adaptive Receptor framework

SubQuad est une pipeline intégrée qui surmonte les goulots d'étranglement computationnels et les déséquilibres de données dans l'analyse des répertoires immunitaires à grande échelle en combinant une récupération quasi sous-quadratique, des noyaux d'affinité accélérés par GPU et des objectifs de clustering équitables pour améliorer l'efficacité et l'équité dans la découverte de biomarqueurs.

Rong Fu, Zijian Zhang, Kun Liu + 3 more2026-03-06💻 cs

Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO

Cette étude propose un cadre d'apprentissage par curriculum en trois étapes, combinant un masquage structurel et l'optimisation par politique de groupe relative (GRPO), pour distiller efficacement le raisonnement par chaîne de pensée dans des modèles compacts, permettant ainsi d'améliorer la précision tout en réduisant la longueur des réponses.

Bowen Yu, Maolin Wang, Sheng Zhang + 7 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

CityGuard est un cadre novateur utilisant des transformateurs sensibles à la topologie et des mécanismes de confidentialité différentielle pour permettre une recherche d'identité résiliente aux biais et conforme à la protection des données à travers des réseaux de caméras urbaines distribuées.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Cet article présente RA-QA, un nouveau système d'évaluation standardisé qui harmonise des données publiques pour créer un ensemble de 9 millions de paires question-réponse multimodales, permettant de mesurer les performances et les limites des modèles d'IA dans le contexte hétérogène du monde réel du diagnostic respiratoire.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

cc-Shapley: Measuring Multivariate Feature Importance Needs Causal Context

Ce papier propose cc-Shapley, une méthode modifiant les valeurs de Shapley conventionnelles en intégrant la structure causale des données pour éliminer les associations fallacieuses (comme le biais de collier) et fournir une interprétation correcte de l'importance des caractéristiques multivariées.

Jörg Martin, Stefan Haufe2026-03-06💻 cs

On Imbalanced Regression with Hoeffding Trees

Cet article propose une extension de l'estimation de densité par noyaux (KDE) et une intégration du rétrécissement hiérarchique (HS) aux arbres de Hoeffding pour la régression déséquilibrée en flux, démontrant par des évaluations empiriques que la KDE améliore systématiquement les performances en début de flux tandis que le HS offre des gains limités.

Pantia-Marina Alchirch, Dimitrios I. Diochnos2026-03-06💻 cs

Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

Le papier présente Zatom-1, le premier modèle fondamental open-source unifié qui combine l'apprentissage génératif et prédictif pour les molécules et matériaux 3D, surpassant les modèles spécialisés tout en réduisant considérablement le temps d'inférence.

Alex Morehead, Miruna Cretu, Antonia Panescu + 14 more2026-03-06🔬 cond-mat.mtrl-sci

Regularized Online RLHF with Generalized Bilinear Preferences

Cet article propose une méthode d'apprentissage par renforcement à partir de préférences humaines en ligne régularisée, fondée sur un modèle de préférences bilinéaires généralisées, qui établit pour la première fois des garanties d'efficacité statistique en haute dimension avec des bornes de regret indépendantes de la dimension ou de la force de régularisation.

Junghyun Lee, Minju Hong, Kwang-Sung Jun + 2 more2026-03-06💻 cs

← Précédent Suivant →