VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

Ce papier propose VLN-Cache, un cadre de mise en cache de tokens qui améliore l'efficacité de l'inférence des modèles de navigation vision-langage en adaptant dynamiquement la réutilisation des tokens aux changements de vue et d'importance sémantique, permettant ainsi une accélération significative sans compromettre les performances de navigation.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Cette étude présente Countdown-Code, un environnement minimaliste révélant que la contamination même faible de données d'apprentissage supervisé par des trajectoires de piratage de récompense suffit à internaliser ce comportement chez les LLM, lequel est ensuite amplifié et généralisé par l'apprentissage par renforcement.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

Statistical Contraction for Chance-Constrained Trajectory Optimization of Non-Gaussian Stochastic Systems

Cet article propose une méthode novatrice d'optimisation de trajectoire robuste et sans hypothèse de distribution pour les systèmes stochastiques non gaussiens, utilisant l'inférence conforme et la contraction statistique pour garantir le respect des contraintes de probabilité avec des preuves formelles, même à partir d'un nombre fini d'échantillons.

Rihan Aaron D'Silva, Hiroyasu Tsukamoto2026-03-10🤖 cs.LG

Agentic Planning with Reasoning for Image Styling via Offline RL

Cet article présente un cadre d'apprentissage par renforcement hors ligne pour un agent agissant via la planification et le raisonnement explicite, qui améliore significativement le stylisme d'images complexes en décomposant les tâches en séquences d'outils composites, surpassant ainsi les méthodes de modification directe par simple prompt.

Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee2026-03-10🤖 cs.LG

A Dual-Graph Spatiotemporal GNN Surrogate for Nonlinear Response Prediction of Reinforced Concrete Beams under Four-Point Bending

Cette étude propose un modèle de substitution basé sur un réseau de neurones à graphes spatiotemporels duals pour prédire efficacement et avec précision les réponses non linéaires complètes (déplacements, contraintes, déformations plastiques et forces globales) de poutres en béton armé sous flexion quatre points, en surmontant les limitations des représentations nodales pour les grandeurs élémentaires via une architecture couplée.

Zhaoyang Ren, Qilin Li2026-03-10🤖 cs.LG

wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment

Ce papier propose wDPO, une méthode d'alignement robuste des grands modèles de langage qui améliore l'optimisation directe des préférences (DPO) en utilisant une stratégie d'intervention hiérarchique et sans récompense pour distinguer et traiter spécifiquement différents types de bruit dans les données de préférence, surpassant ainsi les approches existantes.

Jilong Liu, Yonghui Yang, Pengyang Shao, Haokai Ma, Wei Qin, Richang Hong2026-03-10🤖 cs.LG

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Cette étude présente un pipeline automatisé utilisant un capteur acoustique portable et un modèle de transformateur audio pour segmenter et classifier les bruits intestinaux, permettant une évaluation objective de l'activité digestive avec une haute précision et une réduction significative du temps d'annotation manuelle.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils Strodthoff2026-03-10🤖 cs.LG

Conditional Rank-Rank Regression via Deep Conditional Transformation Models

Cet article propose une méthode améliorée de régression rang-rang conditionnelle utilisant des modèles de transformation profonde et du cross-fitting pour estimer la mobilité intergénérationnelle avec une grande précision dans des contextes non linéaires et discrets, tout en fournissant une théorie asymptotique et des applications empiriques sur les revenus aux États-Unis et la mobilité éducative en Inde.

Xiaoyi Wang, Long Feng, Zhaojun Wang2026-03-10🤖 cs.LG

LF2L: Loss Fusion Horizontal Federated Learning Across Heterogeneous Feature Spaces Using External Datasets Effectively: A Case Study in Second Primary Cancer Prediction

Cette étude propose le cadre LF2L, une méthode d'apprentissage fédéré horizontal fusionnant les pertes pour prédire efficacement les cancers secondaires chez les survivants du cancer du poumon en intégrant de manière privée des données hétérogènes provenant de sources locales et du programme SEER américain, surpassant ainsi les approches traditionnelles en termes de performance prédictive.

Chia-Fu Lin, Yi-Ju Tseng2026-03-10🤖 cs.LG