cs.LG articles | Gist.Science

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Le papier propose SPINE, une méthode d'apprentissage par renforcement à l'inférence qui améliore la stabilité et les performances des modèles de raisonnement en sélectionnant sélectivement les tokens critiques pour les mises à jour et en appliquant une régularisation par bande d'entropie, évitant ainsi l'effondrement des réponses sans nécessiter d'étiquettes ni de modèles de récompense.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

DAISI: Data Assimilation with Inverse Sampling using Stochastic Interpolants

Le papier présente DAISI, un algorithme d'assimilation de données évolutif basé sur des modèles génératifs par flot, qui surpasse les méthodes classiques dans les systèmes non linéaires en intégrant des prévisions via un échantillonnage inverse et en assimilant des observations par guidage sans nécessiter de réentraînement du prior.

Martin Andrae, Erik Larsson, So Takao, Tomas Landelius, Fredrik Lindsten2026-03-09🤖 cs.LG

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

Ce papier propose SQDF, une nouvelle méthode d'alignement par apprentissage par renforcement régularisé KL pour les modèles de diffusion, qui utilise un gradient de politique reparamétré basé sur une fonction Q douce pour surmonter le problème de sur-optimisation de la récompense tout en préservant la diversité et la naturalité des échantillons générés.

Hyeongyu Kang, Jaewoo Lee, Woocheol Shin, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

En proposant une méthode qui approxime une distribution cible par filtrage des réponses incorrectes via la famille des divergences $\alpha$ , cette étude surmonte la perte de diversité des modèles de langage entraînés par apprentissage par renforcement, permettant d'atteindre un état de l'art sur le front de Pareto précision-coverage pour la preuve de théorèmes.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI

A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation

Ce papier présente A-3PO, une méthode qui accélère l'entraînement asynchrone des grands modèles de langage en approximant la politique proximale par interpolation simple pour éliminer le surcoût computationnel des passes avant supplémentaires, tout en maintenant des performances comparables.

Xiaocan Li, Shiliang Wu, Zheng Shen2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

Le papier présente DFIR-DETR, un détecteur transformer innovant qui améliore la détection d'objets de petite taille dans des scènes complexes grâce à une agrégation dynamique de caractéristiques, une pyramide de fonctionnalités préservant la norme et un raffinement itératif dans le domaine fréquentiel, permettant d'atteindre des performances de pointe avec une efficacité computationnelle optimisée.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Two-dimensional RMSD projections for reaction path visualization and validation

Cet article présente une méthode de visualisation en deux dimensions utilisant des projections de RMSD corrigées par permutation et un modèle de processus gaussien pour cartographier les trajectoires de réactions chimiques, permettant ainsi de comparer et valider les chemins réactionnels au-delà des réductions dimensionnelles traditionnelles.

Rohit Goswami2026-03-09🔬 cond-mat.mtrl-sci

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

Cet article propose un cadre novateur combinant la sélection de sous-ensembles submodulaire et l'estimation d'incertitude pour améliorer la robustesse et la fidélité des explications visuelles face aux décalages de distribution, sans nécessiter de réentraînement des modèles.

Madhav Gupta, Vishak Prasad C, Ganesh Ramakrishnan2026-03-09🤖 cs.LG

Data-Driven Global Sensitivity Analysis for Engineering Design Based on Individual Conditional Expectations

Cet article propose une nouvelle métrique de sensibilité globale basée sur les courbes d'attente conditionnelle individuelle (ICE) pour améliorer l'interprétabilité des modèles d'apprentissage automatique en ingénierie, en surmontant les limites des graphiques de dépendance partielle (PDP) face aux interactions fortes entre variables.

Pramudita Satria Palar, Paul Saves, Rommel G. Regis, Koji Shimoyama, Shigeru Obayashi, Nicolas Verstaevel, Joseph Morlier2026-03-09🤖 cs.AI

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Cette étude propose une nouvelle approche d'analyse topologique des données (TDA) basée sur des patches pour l'imagerie tomodensitométrique (CT) volumétrique, qui surpasse les méthodes traditionnelles en termes de précision de classification et de temps de calcul tout en étant accompagnée d'une bibliothèque Python dédiée.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Understanding and Improving Hyperbolic Deep Reinforcement Learning

Cet article présente Hyper++, un agent d'apprentissage par renforcement profond en géométrie hyperbolique qui surmonte les défis d'optimisation grâce à une régularisation des caractéristiques, une fonction de perte catégorielle et une formulation de couches améliorée, garantissant ainsi une stabilité d'apprentissage et des performances supérieures sur les benchmarks ProcGen et Atari-5.

Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek2026-03-09🤖 cs.AI

CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal

Le papier présente CARE, un cadre d'entraînement postérieur centré sur les échecs pour le raisonnement multimodal qui transforme les erreurs en signaux d'apprentissage exploitables grâce à un objectif contrastif ancré et à un échantillonnage guidé par la réflexion, améliorant ainsi significativement la précision et la stabilité de l'entraînement sur des modèles de vision-linguistique.

Yongxin Wang, Zhicheng Yang, Meng Cao, Mingfei Han, Haokun Lin, Yingying Zhu, Xiaojun Chang, Xiaodan Liang2026-03-09🤖 cs.AI

LLMTM: Benchmarking and Optimizing LLMs for Temporal Motif Analysis in Dynamic Graphs

Ce papier présente LLMTM, un benchmark complet pour évaluer les LLMs sur l'analyse de motifs temporels dans les graphes dynamiques, et propose un agent augmenté par des outils ainsi qu'un répartiteur intelligent pour optimiser le compromis entre précision et coût.

Bing Hao, Minglai Shao, Zengyi Wo, Yunlong Chu, Yuhang Liu, Ruijie Wang2026-03-09🤖 cs.AI

Bayesian Monocular Depth Refinement via Neural Radiance Fields

Le papier présente MDENeRF, un cadre itératif bayésien qui affine les estimations de profondeur monoculaire en fusionnant une structure globale avec des détails géométriques fins dérivés de l'incertitude des Champs de Radiance Neuronaux (NeRF).

Arun Muthukkumar2026-03-09🤖 cs.LG

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Cet article propose un cadre de reconnaissance automatique de la parole audiovisuelle (AVSR) robuste au bruit qui, en éliminant les masques explicites et en utilisant une fusion de type Conformer assistée par la vidéo, améliore les performances de reconnaissance dans des environnements bruyants tout en préservant l'intégrité sémantique de la parole.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei Yin2026-03-09🤖 cs.AI

Beyond Mapping : Domain-Invariant Representations via Spectral Embedding of Optimal Transport Plans

Cet article propose une méthode d'adaptation de domaine sans supervision qui génère des représentations invariantes aux domaines en interprétant les plans de transport optimal lissés comme des matrices d'adjacence de graphes bipartis pour en extraire des embeddings spectraux, démontrant ainsi son efficacité sur des tâches de reconnaissance audio et de détection de défauts électriques.

Abdel Djalil Sad Saoud, Fred Maurice Ngolè Mboula, Hanane Slimani2026-03-09🤖 cs.LG

Laser interferometry as a robust neuromorphic platform for machine learning

Ce papier présente une méthode robuste pour implémenter des réseaux de neurones optiques utilisant uniquement des ressources linéaires et des états cohérents, permettant un apprentissage et une inférence *in situ* efficaces tout en démontrant une grande résilience face aux pertes de photons.

Amanuel Anteneh, Kyungeun Kim, J. M. Schwarz, Israel Klich, Olivier Pfister2026-03-09🔬 physics.optics

Neural Signals Generate Clinical Notes in the Wild

Les auteurs proposent CELM, le premier modèle fondamental multimodal capable de générer automatiquement des rapports cliniques détaillés à partir d'enregistrements EEG de longue durée, en obtenant des améliorations significatives par rapport aux méthodes existantes grâce à l'intégration de modèles de langage et de signaux neuronaux pré-entraînés.

Jathurshan Pradeepkumar, Zheng Chen, Jimeng Sun2026-03-09🤖 cs.AI

Online unsupervised Hebbian learning in deep photonic neuromorphic networks

Les auteurs présentent une architecture de réseau neuromorphique photonique profond entièrement optique qui permet un apprentissage non supervisé en ligne via un mécanisme de rétroaction locale et des synapses à base de matériaux à changement de phase, démontrant expérimentalement une reconnaissance de lettres à 100 % sans conversions opto-électroniques.

Xi Li, Disha Biswas, Peng Zhou, Wesley H. Brigner, Anna Capuano, Joseph S. Friedman, Qing Gu2026-03-09🔬 physics.optics

ZK-HybridFL: Zero-Knowledge Proof-Enhanced Hybrid Ledger for Federated Learning

Le papier présente ZK-HybridFL, un cadre d'apprentissage fédéré décentralisé sécurisé qui combine un registre DAG, des sidechains et des preuves à divulgation nulle de connaissance pour valider les mises à jour de modèles sans compromettre la confidentialité des données, tout en offrant une convergence plus rapide, une meilleure précision et une robustesse accrue face aux attaques par rapport aux solutions existantes.

Amirhossein Taherpour, Xiaodong Wang2026-03-09🤖 cs.LG

← Précédent Suivant →