cs.LG articles | Gist.Science

Local Constrained Bayesian Optimization

Cet article propose la Local Constrained Bayesian Optimization (LCBO), un cadre novateur qui surmonte le fléau de la dimensionnalité dans l'optimisation bayésienne contrainte en alternant descente locale et exploration guidée par l'incertitude, garantissant ainsi une convergence polynomiale en dimension et surpassant les méthodes de l'état de l'art sur des problèmes jusqu'à 100 dimensions.

Jing Jingzhe, Fan Zheyi, Szu Hui Ng, Qingpei Hu2026-03-10🤖 cs.LG

Scaling Machine Learning Interatomic Potentials with Mixtures of Experts

Cette étude présente des architectures de potentiels interatomiques basés sur l'apprentissage automatique utilisant des mélanges d'experts (MoE) qui, grâce à une activation parcimonieuse et un routage élément par élément, atteignent une précision inédite tout en révélant une spécialisation chimique interprétable alignée sur les tendances du tableau périodique.

Yuzhi Liu, Duo Zhang, Anyang Peng, Weinan E, Linfeng Zhang, Han Wang2026-03-10🤖 cs.LG

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Ce papier présente \$OneMillion-Bench, un nouveau benchmark de 400 tâches expertes dans des domaines critiques comme le droit et la finance, conçu pour évaluer la fiabilité et la profondeur professionnelle des agents linguistiques dans des scénarios réels complexes dépassant les limites des évaluations actuelles.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

MJ1: Multimodal Judgment via Grounded Verification

Le papier présente MJ1, un juge multimodal entraîné par apprentissage par renforcement qui améliore significativement la précision des jugements grâce à une chaîne de vérification ancrée dans les preuves visuelles et une récompense de cohérence contrefactuelle, surpassant ainsi des modèles beaucoup plus grands sur le benchmark MMRB2.

Bhavesh Kumar, Dylan Feng, Leonard Tang2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Le papier présente SmartThinker, une méthode novatrice basée sur l'optimisation GRPO qui calibre progressivement la longueur des chaînes de pensée pour réduire la redondance des grands modèles de raisonnement tout en améliorant leur précision grâce à une estimation dynamique de la longueur optimale et à une modulation adaptative des récompenses.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

Cet article propose une approche d'apprentissage profond, baptisée « amortized MIPS », qui utilise des réseaux de neurones (SupportNet et KeyNet) pour prédire directement les résultats de la recherche du produit scalaire maximal en exploitant les propriétés mathématiques des fonctions de support, permettant ainsi d'amortir le coût computationnel pour des distributions de requêtes fixes.

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

Le papier propose FedMomentum, un cadre innovant pour l'ajustement fin fédéré de modèles de langage utilisant LoRA, qui préserve la dynamique d'apprentissage et améliore la convergence en corrigeant l'agrégation des mises à jour via une décomposition en valeurs singulières (SVD) structurée.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

Ce papier présente CAMEL, une loi de mélange tenant compte de la capacité du modèle, qui permet d'optimiser efficacement les mélanges de données pour les grands modèles de langage en réduisant les coûts de calcul de 50 % tout en améliorant les performances de 3 %.

Jingwei Li, Xinran Gu, Jingzhao Zhang2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

Le papier présente GCGNet, un réseau génératif à cohérence graphique qui améliore la prévision de séries temporelles avec variables exogènes en modélisant conjointement les corrélations temporelles et inter-variables grâce à un générateur variationnel, un aligneur de structure graphique et un raffineur, surpassant ainsi les méthodes de l'état de l'art sur plusieurs jeux de données réels.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Le papier présente CDRRM, un cadre novateur de modélisation des récompenses qui génère des rubriques interprétables et fiables via une approche de contraste et de synthèse, permettant d'atteindre des performances de pointe avec une efficacité des données exceptionnelle tout en atténuant les biais d'évaluation.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Ce papier propose SFed-LoRA, un cadre de fine-tuning fédéré qui introduit un facteur d'échelle optimal pour atténuer l'instabilité et l'effondrement des gradients liés à l'agrégation de mises à jour LoRA sur de nombreux clients, permettant ainsi une adaptation de rang élevé plus stable et efficace.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Cette étude propose un cadre d'adaptation de domaine basé sur l'apprentissage profond qui permet un transfert de connaissances efficace entre des ensembles de données RNA-Seq hétérogènes pour améliorer la prédiction des phénotypes, en particulier dans des scénarios à faible disponibilité de données.

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

Ce papier propose une méthode d'élagage déterministe et différentiable (DDP) pour les grands modèles de langage, qui élimine le bruit stochastique des approches antérieures afin de réduire l'écart entraînement-test et d'obtenir des accélérations d'inférence significatives avec une perte de performance minimale.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

Hybrid Quantum Neural Network for Multivariate Clinical Time Series Forecasting

Cet article propose une architecture hybride quantique-classique intégrant un circuit quantique variationnel dans un réseau de neurones récurrent pour améliorer la robustesse et la précision de la prévision multivariée des signaux physiologiques dans des contextes cliniques à petits effectifs.

Irene Iele, Floriano Caprio, Paolo Soda, Matteo Tortora2026-03-10🤖 cs.LG

Tiny Autoregressive Recursive Models

Cette étude propose et évalue les modèles autoregressifs récurrents (ARTRM) en les comparant à des architectures Transformer standard sur des tâches algorithmiques, révélant que bien que certains mécanismes de raffinement à deux étapes soient performants, l'architecture ARTRM complète n'apporte aucun gain de performance fiable par rapport aux modèles de base.

Paulius Rauba, Claudio Fanconi, Mihaela van der Schaar2026-03-10🤖 cs.LG

EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs

Le papier présente EAGLE-Pangu, un système reproductible qui adapte le décodage spéculatif arborescent de type EAGLE-3 sur les NPU Ascend pour le backend Pangu, en améliorant le débit de décodage grâce à une gestion explicite du cache, une tensorisation sécurisée et un chemin de vérification fusionné.

Chang Han, Yijie Hu, Jingling Liu2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Ce papier propose le cadre DC-W2S, une méthode d'entraînement dual-consensus qui combine des métriques d'auto-consensus et de consensus de voisinage pour filtrer les signaux d'apprentissage bruyants et former des modèles de récompense de processus fiables pour le raisonnement biologique sans annotation experte exhaustive.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

Cette étude révèle une menace de sécurité insidieuse où un modèle de langage peut être finetuné pour générer discrètement du contenu malveillant via une stéganographie, trompant ainsi les systèmes de filtrage et les observateurs humains tout en affichant une apparence inoffensive.

Guangnian Wan, Xinyin Ma, Gongfan Fang, Xinchao Wang2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

Le papier présente Tau-BNO, un cadre de substitution par opérateur neuronal conçu pour accélérer considérablement la simulation du modèle de transport de tau (NTM) tout en préservant sa précision biophysique, permettant ainsi une inférence de paramètres rapide et la génération de nouvelles hypothèses sur la propagation de la tauopathie.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

Ce papier propose ROMI, une nouvelle méthode d'apprentissage par renforcement hors ligne basée sur un modèle qui améliore la stabilité et la généralisation hors distribution en remplaçant la mise à jour par gradient du modèle RAMBO par un apprentissage robuste axé sur la valeur avec un poids adaptatif implicitement différentiable.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

← Précédent Suivant →