SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Le papier propose SPINE, une méthode d'apprentissage par renforcement à l'inférence qui améliore la stabilité et les performances des modèles de raisonnement en sélectionnant sélectivement les tokens critiques pour les mises à jour et en appliquant une régularisation par bande d'entropie, évitant ainsi l'effondrement des réponses sans nécessiter d'étiquettes ni de modèles de récompense.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

DAISI: Data Assimilation with Inverse Sampling using Stochastic Interpolants

Le papier présente DAISI, un algorithme d'assimilation de données évolutif basé sur des modèles génératifs par flot, qui surpasse les méthodes classiques dans les systèmes non linéaires en intégrant des prévisions via un échantillonnage inverse et en assimilant des observations par guidage sans nécessiter de réentraînement du prior.

Martin Andrae, Erik Larsson, So Takao, Tomas Landelius, Fredrik Lindsten2026-03-09🤖 cs.LG

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

Ce papier propose SQDF, une nouvelle méthode d'alignement par apprentissage par renforcement régularisé KL pour les modèles de diffusion, qui utilise un gradient de politique reparamétré basé sur une fonction Q douce pour surmonter le problème de sur-optimisation de la récompense tout en préservant la diversité et la naturalité des échantillons générés.

Hyeongyu Kang, Jaewoo Lee, Woocheol Shin, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

En proposant une méthode qui approxime une distribution cible par filtrage des réponses incorrectes via la famille des divergences α\alpha, cette étude surmonte la perte de diversité des modèles de langage entraînés par apprentissage par renforcement, permettant d'atteindre un état de l'art sur le front de Pareto précision-coverage pour la preuve de théorèmes.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

Le papier présente DFIR-DETR, un détecteur transformer innovant qui améliore la détection d'objets de petite taille dans des scènes complexes grâce à une agrégation dynamique de caractéristiques, une pyramide de fonctionnalités préservant la norme et un raffinement itératif dans le domaine fréquentiel, permettant d'atteindre des performances de pointe avec une efficacité computationnelle optimisée.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Data-Driven Global Sensitivity Analysis for Engineering Design Based on Individual Conditional Expectations

Cet article propose une nouvelle métrique de sensibilité globale basée sur les courbes d'attente conditionnelle individuelle (ICE) pour améliorer l'interprétabilité des modèles d'apprentissage automatique en ingénierie, en surmontant les limites des graphiques de dépendance partielle (PDP) face aux interactions fortes entre variables.

Pramudita Satria Palar, Paul Saves, Rommel G. Regis, Koji Shimoyama, Shigeru Obayashi, Nicolas Verstaevel, Joseph Morlier2026-03-09🤖 cs.AI

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Cette étude propose une nouvelle approche d'analyse topologique des données (TDA) basée sur des patches pour l'imagerie tomodensitométrique (CT) volumétrique, qui surpasse les méthodes traditionnelles en termes de précision de classification et de temps de calcul tout en étant accompagnée d'une bibliothèque Python dédiée.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Understanding and Improving Hyperbolic Deep Reinforcement Learning

Cet article présente Hyper++, un agent d'apprentissage par renforcement profond en géométrie hyperbolique qui surmonte les défis d'optimisation grâce à une régularisation des caractéristiques, une fonction de perte catégorielle et une formulation de couches améliorée, garantissant ainsi une stabilité d'apprentissage et des performances supérieures sur les benchmarks ProcGen et Atari-5.

Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek2026-03-09🤖 cs.AI

CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal

Le papier présente CARE, un cadre d'entraînement postérieur centré sur les échecs pour le raisonnement multimodal qui transforme les erreurs en signaux d'apprentissage exploitables grâce à un objectif contrastif ancré et à un échantillonnage guidé par la réflexion, améliorant ainsi significativement la précision et la stabilité de l'entraînement sur des modèles de vision-linguistique.

Yongxin Wang, Zhicheng Yang, Meng Cao, Mingfei Han, Haokun Lin, Yingying Zhu, Xiaojun Chang, Xiaodan Liang2026-03-09🤖 cs.AI

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Cet article propose un cadre de reconnaissance automatique de la parole audiovisuelle (AVSR) robuste au bruit qui, en éliminant les masques explicites et en utilisant une fusion de type Conformer assistée par la vidéo, améliore les performances de reconnaissance dans des environnements bruyants tout en préservant l'intégrité sémantique de la parole.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei Yin2026-03-09🤖 cs.AI

Beyond Mapping : Domain-Invariant Representations via Spectral Embedding of Optimal Transport Plans

Cet article propose une méthode d'adaptation de domaine sans supervision qui génère des représentations invariantes aux domaines en interprétant les plans de transport optimal lissés comme des matrices d'adjacence de graphes bipartis pour en extraire des embeddings spectraux, démontrant ainsi son efficacité sur des tâches de reconnaissance audio et de détection de défauts électriques.

Abdel Djalil Sad Saoud, Fred Maurice Ngolè Mboula, Hanane Slimani2026-03-09🤖 cs.LG

Online unsupervised Hebbian learning in deep photonic neuromorphic networks

Les auteurs présentent une architecture de réseau neuromorphique photonique profond entièrement optique qui permet un apprentissage non supervisé en ligne via un mécanisme de rétroaction locale et des synapses à base de matériaux à changement de phase, démontrant expérimentalement une reconnaissance de lettres à 100 % sans conversions opto-électroniques.

Xi Li, Disha Biswas, Peng Zhou, Wesley H. Brigner, Anna Capuano, Joseph S. Friedman, Qing Gu2026-03-09🔬 physics.optics

ZK-HybridFL: Zero-Knowledge Proof-Enhanced Hybrid Ledger for Federated Learning

Le papier présente ZK-HybridFL, un cadre d'apprentissage fédéré décentralisé sécurisé qui combine un registre DAG, des sidechains et des preuves à divulgation nulle de connaissance pour valider les mises à jour de modèles sans compromettre la confidentialité des données, tout en offrant une convergence plus rapide, une meilleure précision et une robustesse accrue face aux attaques par rapport aux solutions existantes.

Amirhossein Taherpour, Xiaodong Wang2026-03-09🤖 cs.LG