Local Constrained Bayesian Optimization

Cet article propose la Local Constrained Bayesian Optimization (LCBO), un cadre novateur qui surmonte le fléau de la dimensionnalité dans l'optimisation bayésienne contrainte en alternant descente locale et exploration guidée par l'incertitude, garantissant ainsi une convergence polynomiale en dimension et surpassant les méthodes de l'état de l'art sur des problèmes jusqu'à 100 dimensions.

Jing Jingzhe, Fan Zheyi, Szu Hui Ng, Qingpei Hu2026-03-10🤖 cs.LG

Scaling Machine Learning Interatomic Potentials with Mixtures of Experts

Cette étude présente des architectures de potentiels interatomiques basés sur l'apprentissage automatique utilisant des mélanges d'experts (MoE) qui, grâce à une activation parcimonieuse et un routage élément par élément, atteignent une précision inédite tout en révélant une spécialisation chimique interprétable alignée sur les tendances du tableau périodique.

Yuzhi Liu, Duo Zhang, Anyang Peng, Weinan E, Linfeng Zhang, Han Wang2026-03-10🤖 cs.LG

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Ce papier présente \$OneMillion-Bench, un nouveau benchmark de 400 tâches expertes dans des domaines critiques comme le droit et la finance, conçu pour évaluer la fiabilité et la profondeur professionnelle des agents linguistiques dans des scénarios réels complexes dépassant les limites des évaluations actuelles.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Le papier présente SmartThinker, une méthode novatrice basée sur l'optimisation GRPO qui calibre progressivement la longueur des chaînes de pensée pour réduire la redondance des grands modèles de raisonnement tout en améliorant leur précision grâce à une estimation dynamique de la longueur optimale et à une modulation adaptative des récompenses.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

Cet article propose une approche d'apprentissage profond, baptisée « amortized MIPS », qui utilise des réseaux de neurones (SupportNet et KeyNet) pour prédire directement les résultats de la recherche du produit scalaire maximal en exploitant les propriétés mathématiques des fonctions de support, permettant ainsi d'amortir le coût computationnel pour des distributions de requêtes fixes.

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

Le papier présente GCGNet, un réseau génératif à cohérence graphique qui améliore la prévision de séries temporelles avec variables exogènes en modélisant conjointement les corrélations temporelles et inter-variables grâce à un générateur variationnel, un aligneur de structure graphique et un raffineur, surpassant ainsi les méthodes de l'état de l'art sur plusieurs jeux de données réels.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Le papier présente CDRRM, un cadre novateur de modélisation des récompenses qui génère des rubriques interprétables et fiables via une approche de contraste et de synthèse, permettant d'atteindre des performances de pointe avec une efficacité des données exceptionnelle tout en atténuant les biais d'évaluation.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Ce papier propose SFed-LoRA, un cadre de fine-tuning fédéré qui introduit un facteur d'échelle optimal pour atténuer l'instabilité et l'effondrement des gradients liés à l'agrégation de mises à jour LoRA sur de nombreux clients, permettant ainsi une adaptation de rang élevé plus stable et efficace.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Ce papier propose le cadre DC-W2S, une méthode d'entraînement dual-consensus qui combine des métriques d'auto-consensus et de consensus de voisinage pour filtrer les signaux d'apprentissage bruyants et former des modèles de récompense de processus fiables pour le raisonnement biologique sans annotation experte exhaustive.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

Le papier présente Tau-BNO, un cadre de substitution par opérateur neuronal conçu pour accélérer considérablement la simulation du modèle de transport de tau (NTM) tout en préservant sa précision biophysique, permettant ainsi une inférence de paramètres rapide et la génération de nouvelles hypothèses sur la propagation de la tauopathie.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

Ce papier propose ROMI, une nouvelle méthode d'apprentissage par renforcement hors ligne basée sur un modèle qui améliore la stabilité et la généralisation hors distribution en remplaçant la mise à jour par gradient du modèle RAMBO par un apprentissage robuste axé sur la valeur avec un poids adaptatif implicitement différentiable.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG