EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Le papier présente EsoLang-Bench, un nouveau benchmark utilisant des langages de programmation ésotériques pour révéler que les grands modèles de langage, bien que performants sur les tâches de codage standards, échouent à démontrer un raisonnement véritable en raison d'une dépendance excessive à la mémorisation des données d'entraînement.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

On Catastrophic Forgetting in Low-Rank Decomposition-Based Parameter-Efficient Fine-Tuning

Cette étude démontre que la conception de l'espace de mise à jour dans les méthodes de fine-tuning paramétriquement efficaces basées sur la décomposition de rang faible est déterminante pour atténuer l'oubli catastrophique lors de l'apprentissage séquentiel, en comparant l'efficacité des approches tensorielles et structurellement alignées par rapport aux sous-espaces matriciels partagés.

Muhammad Ahmad, Jingjing Zheng, Yankai Cao2026-03-11🤖 cs.LG

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Le papier présente ActiveUltraFeedback, un pipeline d'apprentissage actif modulaire qui optimise la génération de données de préférence pour l'alignement des modèles de langage en sélectionnant dynamiquement les réponses les plus informatives, permettant d'obtenir des performances supérieures avec jusqu'à six fois moins de données annotées que les méthodes statiques.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Physics-informed neural operator for predictive parametric phase-field modelling

Cet article présente PF-PINO, un opérateur neuronal informé par la physique qui intègre les résidus des équations de champ de phase dans la fonction de perte pour surmonter les limitations de généralisation et de stabilité à long terme des méthodes d'apprentissage automatique conventionnelles, offrant ainsi un outil robuste et efficace pour la modélisation prédictive de l'évolution microstructurale des matériaux.

Nanxi Chen, Airong Chen, Rujin Ma2026-03-11🔬 cond-mat.mtrl-sci

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Le papier présente Mousse, un nouvel optimiseur qui améliore l'algorithme Muon en intégrant une estimation de la courbure via Shampoo pour adapter les mises à jour spectrales aux paysages d'optimisation anisotropes des réseaux de neurones, réduisant ainsi le nombre d'étapes d'entraînement d'environ 12 % avec un surcoût computationnel négligeable.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

A Multi-Prototype-Guided Federated Knowledge Distillation Approach in AI-RAN Enabled Multi-Access Edge Computing System

Cet article propose une approche de distillation de connaissances fédérée guidée par des prototypes multiples (MP-FedKD) pour les systèmes MEC activés par l'IA-RAN, qui surmonte les défis des données non-IID et la perte d'information des prototypes uniques grâce à un clustering hiérarchique agglomératif conditionnel et une nouvelle fonction de perte, surpassant ainsi les méthodes de l'état de l'art en termes de précision et d'erreurs.

Luyao Zou, Hayoung Oh, Chu Myaet Thwal, Apurba Adhikary, Seohyeon Hong, Zhu Han2026-03-11🤖 cs.LG

Upper Generalization Bounds for Neural Oscillators

Cette étude établit des bornes de généralisation PAC pour les oscillateurs neuronaux basés sur des équations différentielles d'ordre deux, démontrant que leurs erreurs d'estimation croissent polynomialement avec la taille du réseau et la durée temporelle, tout en validant que la régularisation des constantes de Lipschitz améliore leur performance sur des systèmes non linéaires complexes.

Zifeng Huang, Konstantin M. Zuev, Yong Xia, Michael Beer2026-03-11🤖 cs.LG

Information Theoretic Bayesian Optimization over the Probability Simplex

Cet article présente α\alpha-GaBO, une nouvelle famille d'algorithmes d'optimisation bayésienne conçus pour le simplexe de probabilité en s'appuyant sur la géométrie de l'information afin de construire des noyaux et des optimiseurs adaptés à cette géométrie, surpassant ainsi les approches euclidiennes contraintes sur divers problèmes réels.

Federico Pavesi, Antonio Candelieri, Noémie Jaquier2026-03-11🤖 cs.LG

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

Ce papier propose l'In-Context RLVR, une méthode qui améliore l'apprentissage par renforcement des modèles de langage en pondérant implicitement les récompenses selon la qualité du raisonnement (mesurée par le « Gain de Preuve »), évitant ainsi de renforcer des traces de raisonnement défectueuses qui aboutiraient par hasard à la bonne réponse.

Tiehua Mei, Minxuan Lv, Leiyu Pan, Zhenpeng Su, Hongru Hou, Hengrui Chen, Ao Xu, Deqing Yang2026-03-11🤖 cs.LG

A Unified Hierarchical Multi-Task Multi-Fidelity Framework for Data-Efficient Surrogate Modeling in Manufacturing

Cet article propose un cadre unifié hiérarchique multi-tâches et multi-fidélité basé sur les processus gaussiens pour surmonter les limites de la modélisation de substitution dans la fabrication en exploitant simultanément les similarités inter-tâches et les caractéristiques des données hétérogènes, améliorant ainsi la précision des prédictions jusqu'à 23 % par rapport aux méthodes existantes.

Manan Mehta, Zhiqiao Dong, Yuhang Yang, Chenhui Shao2026-03-11🤖 cs.LG

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

Le papier présente GAST, une méthode innovante de réglage fin parcimonieux qui optimise simultanément la sélection des données et des couches pour adapter efficacement les grands modèles de langage en alignant les gradients et en surmontant les limites des approches unidimensionnelles existantes.

Kai Yao, Zhenghan Song, Kaixin Wu, Mingjie Zhong, Danzhao Cheng, Zhaorui Tan, Yixin Ji, Penglei Gao2026-03-11🤖 cs.LG

CarbonBench: A Global Benchmark for Upscaling of Carbon Fluxes Using Zero-Shot Learning

Le papier présente CarbonBench, le premier benchmark mondial conçu pour évaluer rigoureusement les méthodes d'apprentissage zéro-shot dans la mise à l'échelle des flux de carbone terrestres, en s'appuyant sur plus de 1,3 million d'observations provenant de 567 sites de tour à flux pour tester la généralisation des modèles à des écosystèmes et climats non vus.

Aleksei Rozanov, Arvind Renganathan, Yimeng Zhang, Vipin Kumar2026-03-11🤖 cs.LG