cs.LG articles | Gist.Science

How Reliable is Language Model Micro-Benchmarking?

Cette étude démontre que le micro-benchmarking des modèles de langage est souvent peu fiable pour classer des modèles aux performances proches, révélant que des échantillons aléatoires peuvent être aussi efficaces que des méthodes sophistiquées et que des tailles d'échantillons beaucoup plus grandes sont nécessaires pour garantir une évaluation précise.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

Le papier présente CanvasMAR, un modèle de prédiction vidéo autorégressif novateur qui améliore la qualité et la cohérence de la génération avec peu d'étapes en introduisant un « canevas » global flou comme prior structuré, complété par un curriculum d'apprentissage facile-difficile et un guidage conditionnel composite.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence

Cet article démontre théoriquement et expérimentalement que l'intégration d'un vérificateur externe dans le processus de réentraînement sur des données synthétiques permet d'éviter l'effondrement du modèle et d'obtenir des améliorations à court terme, bien que la convergence à long terme soit limitée par la fiabilité de ce vérificateur.

Bingji Yi, Qiyuan Liu, Yuwei Cheng, Haifeng Xu2026-03-09🤖 cs.LG

Mixed Monotonicity Reachability Analysis of Neural ODE: A Trade-Off Between Tightness and Efficiency

Cet article propose une nouvelle méthode de vérification par intervalles pour les équations différentielles ordinaires neuronales, exploitant la monotonie mixte pour offrir une analyse de reachability efficace et sûre, idéale pour les applications critiques en temps réel malgré un compromis sur la précision.

Abdelrahman Sayed Sayed, Pierre-Jean Meyer, Mohamed Ghazel2026-03-09🤖 cs.LG

Real-Time Learning of Predictive Dynamic Obstacle Models for Robotic Motion Planning

Cet article présente un cadre d'apprentissage en temps réel utilisant une décomposition modale dynamique de Hankel modifiée pour débruiter et prédire les trajectoires d'agents dynamiques à partir de données partielles et bruitées, permettant ainsi une planification de mouvement robotique plus sûre et adaptative.

Stella Kombo, Masih Haseli, Skylar X. Wei, Joel W. Burdick2026-03-09🤖 cs.LG

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

Le papier présente KLASS, une méthode d'échantillonnage adaptative qui accélère significativement l'inférence des modèles de diffusion masqués en dévoilant plusieurs tokens à chaque itération grâce à la divergence KL, tout en améliorant la qualité des résultats sur divers domaines tels que le texte, l'image et les molécules.

Seo Hyun Kim, Sunwoo Hong, Hojung Jung, Youngrok Park, Se-Young Yun2026-03-09🤖 cs.LG

CADM: Cluster-customized Adaptive Distance Metric for Categorical Data Clustering

Ce papier propose le CADM, une métrique de distance adaptative et personnalisée par cluster pour le regroupement de données catégorielles et mixtes, qui améliore les performances en ajustant dynamiquement les distances en fonction des distributions spécifiques de chaque cluster.

Taixi Chen, Yiu-ming Cheung, Yiqun Zhang2026-03-09🤖 cs.LG

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Ce papier présente FireScope, un cadre de modélisation basé sur les grands modèles de langage visuel qui intègre un raisonnement de type « chaîne de pensée » pour prédire les risques d'incendie avec une meilleure généralisation intercontinentale et une interprétabilité accrue, soutenu par le nouveau benchmark FireScope-Bench.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

EgoCogNav: Cognition-aware Human Egocentric Navigation

Ce papier présente EgoCogNav, un cadre de navigation égocentrique multimodal qui intègre l'incertitude perçue comme état latent pour prédire les trajectoires et les mouvements de tête, accompagné d'un nouveau jeu de données CEN pour capturer les comportements de navigation humains réalistes.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Le papier propose SPINE, une méthode d'apprentissage par renforcement à l'inférence qui améliore la stabilité et les performances des modèles de raisonnement en sélectionnant sélectivement les tokens critiques pour les mises à jour et en appliquant une régularisation par bande d'entropie, évitant ainsi l'effondrement des réponses sans nécessiter d'étiquettes ni de modèles de récompense.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

DAISI: Data Assimilation with Inverse Sampling using Stochastic Interpolants

Le papier présente DAISI, un algorithme d'assimilation de données évolutif basé sur des modèles génératifs par flot, qui surpasse les méthodes classiques dans les systèmes non linéaires en intégrant des prévisions via un échantillonnage inverse et en assimilant des observations par guidage sans nécessiter de réentraînement du prior.

Martin Andrae, Erik Larsson, So Takao, Tomas Landelius, Fredrik Lindsten2026-03-09🤖 cs.LG

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

Ce papier propose SQDF, une nouvelle méthode d'alignement par apprentissage par renforcement régularisé KL pour les modèles de diffusion, qui utilise un gradient de politique reparamétré basé sur une fonction Q douce pour surmonter le problème de sur-optimisation de la récompense tout en préservant la diversité et la naturalité des échantillons générés.

Hyeongyu Kang, Jaewoo Lee, Woocheol Shin, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

En proposant une méthode qui approxime une distribution cible par filtrage des réponses incorrectes via la famille des divergences $\alpha$ , cette étude surmonte la perte de diversité des modèles de langage entraînés par apprentissage par renforcement, permettant d'atteindre un état de l'art sur le front de Pareto précision-coverage pour la preuve de théorèmes.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI

A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation

Ce papier présente A-3PO, une méthode qui accélère l'entraînement asynchrone des grands modèles de langage en approximant la politique proximale par interpolation simple pour éliminer le surcoût computationnel des passes avant supplémentaires, tout en maintenant des performances comparables.

Xiaocan Li, Shiliang Wu, Zheng Shen2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

Le papier présente DFIR-DETR, un détecteur transformer innovant qui améliore la détection d'objets de petite taille dans des scènes complexes grâce à une agrégation dynamique de caractéristiques, une pyramide de fonctionnalités préservant la norme et un raffinement itératif dans le domaine fréquentiel, permettant d'atteindre des performances de pointe avec une efficacité computationnelle optimisée.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Two-dimensional RMSD projections for reaction path visualization and validation

Cet article présente une méthode de visualisation en deux dimensions utilisant des projections de RMSD corrigées par permutation et un modèle de processus gaussien pour cartographier les trajectoires de réactions chimiques, permettant ainsi de comparer et valider les chemins réactionnels au-delà des réductions dimensionnelles traditionnelles.

Rohit Goswami2026-03-09🔬 cond-mat.mtrl-sci

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

Cet article propose un cadre novateur combinant la sélection de sous-ensembles submodulaire et l'estimation d'incertitude pour améliorer la robustesse et la fidélité des explications visuelles face aux décalages de distribution, sans nécessiter de réentraînement des modèles.

Madhav Gupta, Vishak Prasad C, Ganesh Ramakrishnan2026-03-09🤖 cs.LG

Data-Driven Global Sensitivity Analysis for Engineering Design Based on Individual Conditional Expectations

Cet article propose une nouvelle métrique de sensibilité globale basée sur les courbes d'attente conditionnelle individuelle (ICE) pour améliorer l'interprétabilité des modèles d'apprentissage automatique en ingénierie, en surmontant les limites des graphiques de dépendance partielle (PDP) face aux interactions fortes entre variables.

Pramudita Satria Palar, Paul Saves, Rommel G. Regis, Koji Shimoyama, Shigeru Obayashi, Nicolas Verstaevel, Joseph Morlier2026-03-09🤖 cs.AI

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Cette étude propose une nouvelle approche d'analyse topologique des données (TDA) basée sur des patches pour l'imagerie tomodensitométrique (CT) volumétrique, qui surpasse les méthodes traditionnelles en termes de précision de classification et de temps de calcul tout en étant accompagnée d'une bibliothèque Python dédiée.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Understanding and Improving Hyperbolic Deep Reinforcement Learning

Cet article présente Hyper++, un agent d'apprentissage par renforcement profond en géométrie hyperbolique qui surmonte les défis d'optimisation grâce à une régularisation des caractéristiques, une fonction de perte catégorielle et une formulation de couches améliorée, garantissant ainsi une stabilité d'apprentissage et des performances supérieures sur les benchmarks ProcGen et Atari-5.

Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek2026-03-09🤖 cs.AI

← Précédent Suivant →