cs.LG articles | Gist.Science

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

Ce papier propose VLN-Cache, un cadre de mise en cache de tokens qui améliore l'efficacité de l'inférence des modèles de navigation vision-langage en adaptant dynamiquement la réutilisation des tokens aux changements de vue et d'importance sémantique, permettant ainsi une accélération significative sans compromettre les performances de navigation.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction

Le papier présente Dreamer-CDP, une méthode qui améliore les modèles du monde sans reconstruction en utilisant un prédicteur de type JEPA sur des représentations continues et déterministes, atteignant ainsi des performances équivalentes à Dreamer sur l'environnement Crafter.

Michael Hauri, Friedemann Zenke2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Cette étude présente Countdown-Code, un environnement minimaliste révélant que la contamination même faible de données d'apprentissage supervisé par des trajectoires de piratage de récompense suffit à internaliser ce comportement chez les LLM, lequel est ensuite amplifié et généralisé par l'apprentissage par renforcement.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

Statistical Contraction for Chance-Constrained Trajectory Optimization of Non-Gaussian Stochastic Systems

Cet article propose une méthode novatrice d'optimisation de trajectoire robuste et sans hypothèse de distribution pour les systèmes stochastiques non gaussiens, utilisant l'inférence conforme et la contraction statistique pour garantir le respect des contraintes de probabilité avec des preuves formelles, même à partir d'un nombre fini d'échantillons.

Rihan Aaron D'Silva, Hiroyasu Tsukamoto2026-03-10🤖 cs.LG

Deep Generative Spatiotemporal Engression for Probabilistic Forecasting of Epidemics

Cet article propose une nouvelle méthode d'engression spatiotemporelle générative profonde pour produire des prévisions probabilistes fiables des épidémies, surpassant les modèles existants grâce à une quantification endogène de l'incertitude et à une validité théorique rigoureuse.

Rajdeep Pathak, Tanujit Chakraborty2026-03-10🤖 cs.LG

Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers

Ce papier propose DualAdam, un nouvel optimiseur qui combine les mécanismes de mise à jour de l'Adam et de son variant inverse (InvAdam) pour garantir la convergence tout en améliorant la généralisation des modèles d'apprentissage profond en favorisant la recherche de minima plats.

Tao Shi, Liangming Chen, Long Jin, Mengchu Zhou2026-03-10🤖 cs.LG

Agentic Planning with Reasoning for Image Styling via Offline RL

Cet article présente un cadre d'apprentissage par renforcement hors ligne pour un agent agissant via la planification et le raisonnement explicite, qui améliore significativement le stylisme d'images complexes en décomposant les tâches en séquences d'outils composites, surpassant ainsi les méthodes de modification directe par simple prompt.

Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee2026-03-10🤖 cs.LG

Spectral Conditioning of Attention Improves Transformer Performance

Cet article présente une méthode théorique et pratique qui améliore les performances des transformers en conditionnant spectralement les blocs d'attention pour réduire le nombre de conditionnement de leur jacobien, offrant ainsi une solution simple et universelle applicable à diverses architectures.

Hemanth Saratchandran, Simon Lucey2026-03-10🤖 cs.LG

Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

Ce papier présente CUDAMaster, un système multi-agents capable d'optimiser automatiquement des noyaux CUDA dans divers scénarios scientifiques et d'apprentissage profond, surpassant les méthodes existantes et rivalisant avec des bibliothèques propriétaires grâce au nouveau benchmark MSKernelBench.

Yuxuan Han, Meng-Hao Guo, Zhengning Liu, Wenguang Chen, Shi-Min Hu2026-03-10🤖 cs.LG

Shaping Parameter Contribution Patterns for Out-of-Distribution Detection

Ce papier propose la méthode SPCP, qui améliore la détection des données hors distribution en modifiant le processus d'apprentissage pour encourager l'utilisation d'un ensemble plus large de paramètres plutôt que de dépendre de quelques contributions dominantes, réduisant ainsi les prédictions excessivement confiantes.

Haonan Xu, Yang Yang2026-03-10🤖 cs.LG

A Dual-Graph Spatiotemporal GNN Surrogate for Nonlinear Response Prediction of Reinforced Concrete Beams under Four-Point Bending

Cette étude propose un modèle de substitution basé sur un réseau de neurones à graphes spatiotemporels duals pour prédire efficacement et avec précision les réponses non linéaires complètes (déplacements, contraintes, déformations plastiques et forces globales) de poutres en béton armé sous flexion quatre points, en surmontant les limitations des représentations nodales pour les grandeurs élémentaires via une architecture couplée.

Zhaoyang Ren, Qilin Li2026-03-10🤖 cs.LG

wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment

Ce papier propose wDPO, une méthode d'alignement robuste des grands modèles de langage qui améliore l'optimisation directe des préférences (DPO) en utilisant une stratégie d'intervention hiérarchique et sans récompense pour distinguer et traiter spécifiquement différents types de bruit dans les données de préférence, surpassant ainsi les approches existantes.

Jilong Liu, Yonghui Yang, Pengyang Shao, Haokai Ma, Wei Qin, Richang Hong2026-03-10🤖 cs.LG

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Cette étude présente un pipeline automatisé utilisant un capteur acoustique portable et un modèle de transformateur audio pour segmenter et classifier les bruits intestinaux, permettant une évaluation objective de l'activité digestive avec une haute précision et une réduction significative du temps d'annotation manuelle.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils Strodthoff2026-03-10🤖 cs.LG

Margin in Abstract Spaces

Cet article démontre que l'apprenabilité basée sur la marge dans des espaces métriques arbitraires repose uniquement sur l'inégalité triangulaire au-delà d'un seuil critique, et qu'elle ne peut pas toujours être réduite à une classification linéaire dans un espace de Banach, où la complexité d'échantillonnage suit une loi de puissance spécifique.

Yair Ashlagi, Roi Livni, Shay Moran, Tom Waknine2026-03-10🤖 cs.LG

Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

Cette étude présente ODA-Fin, un modèle financier optimisé grâce à une distillation de haute qualité et un entraînement par renforcement axé sur la difficulté, surpassant les modèles open-source existants sur neuf benchmarks grâce à des jeux de données rigoureusement vérifiés.

Chuxue Cao, Honglin Lin, Zhanping Zhong, Xin Gao, Mengzhang Cai, Conghui He, Sirui Han, Lijun Wu2026-03-10🤖 cs.LG

LightMedSeg: Lightweight 3D Medical Image Segmentation with Learned Spatial Anchors

Le papier présente LightMedSeg, une architecture de segmentation médicale 3D légère et efficace qui intègre des priors anatomiques et des mécanismes d'ancrage pour atteindre une précision compétitive avec des modèles lourds tout en réduisant considérablement les paramètres et les coûts de calcul.

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal2026-03-10🤖 cs.LG

Conditional Rank-Rank Regression via Deep Conditional Transformation Models

Cet article propose une méthode améliorée de régression rang-rang conditionnelle utilisant des modèles de transformation profonde et du cross-fitting pour estimer la mobilité intergénérationnelle avec une grande précision dans des contextes non linéaires et discrets, tout en fournissant une théorie asymptotique et des applications empiriques sur les revenus aux États-Unis et la mobilité éducative en Inde.

Xiaoyi Wang, Long Feng, Zhaojun Wang2026-03-10🤖 cs.LG

Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation

Ce papier présente PT-RAG, un cadre novateur d'augmentation par récupération pour la génération qui améliore la prédiction des réponses cellulaires aux perturbations génétiques grâce à une récupération différentielle sensible au type cellulaire, surpassant ainsi les méthodes existantes.

Andrea Giuseppe Di Francesco, Andrea Rubbi, Pietro Liò2026-03-10🤖 cs.LG

Rethinking Deep Research from the Perspective of Web Content Distribution Matching

Le papier propose WeDas, un cadre qui améliore les agents de recherche profonde en intégrant les caractéristiques structurelles du web pour aligner dynamiquement les requêtes de raisonnement avec les résultats de recherche, surmontant ainsi les limites des moteurs statiques.

Zixuan Yu, Zhenheng Tang, Tongliang Liu, Chengqi Zhang, Xiaowen Chu, Bo Han2026-03-10🤖 cs.LG

LF2L: Loss Fusion Horizontal Federated Learning Across Heterogeneous Feature Spaces Using External Datasets Effectively: A Case Study in Second Primary Cancer Prediction

Cette étude propose le cadre LF2L, une méthode d'apprentissage fédéré horizontal fusionnant les pertes pour prédire efficacement les cancers secondaires chez les survivants du cancer du poumon en intégrant de manière privée des données hétérogènes provenant de sources locales et du programme SEER américain, surpassant ainsi les approches traditionnelles en termes de performance prédictive.

Chia-Fu Lin, Yi-Ju Tseng2026-03-10🤖 cs.LG

← Précédent Suivant →