Learning to Reflect: Hierarchical Multi-Agent Reinforcement Learning for CSI-Free mmWave Beam-Focusing

Cet article propose un cadre d'apprentissage par renforcement multi-agent hiérarchique (HMARL) pour le contrôle de surfaces réfléchissantes reconfigurables dans les systèmes mmWave, éliminant la surcharge d'estimation de l'état du canal en utilisant des données de localisation pour optimiser la focalisation des faisceaux avec une efficacité et une robustesse supérieures aux méthodes centralisées.

Hieu Le, Oguz Bedir, Mostafa Ibrahim, Jian Tao, Sabit Ekin2026-03-10🤖 cs.LG

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Cette étude propose une méthode d'estimation de qualité pour la traduction automatique vers des langues indiennes en ressources limitées, démontrant que l'adaptation des couches intermédiaires de grands modèles de langage (via ALOPE et LoRMA) surpasse les approches par simple prompt pour garantir une robustesse accrue, notamment dans les domaines à haut risque.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

Feed m Birds with One Scone: Accelerating Multi-task Gradient Balancing via Bi-level Optimization

Ce papier présente MARIGOLD, un cadre algorithmique unifié qui accélère l'équilibrage des gradients en apprentissage multi-tâches en modélisant le problème comme une optimisation bi-niveau résolue efficacement par une méthode d'ordre zéro, surmontant ainsi les limitations de coût computationnel des méthodes existantes comme MGDA.

Xuxing Chen, Yun He, Jiayi Xu, Minhui Huang, Xiaoyi Liu, Boyang Liu, Fei Tian, Xiaohan Wei, Rong Jin, Sem Park, Bo Long, Xue Feng2026-03-10🤖 cs.LG

DualSpec: Accelerating Deep Research Agents via Dual-Process Action Speculation

Le papier présente DualSpec, un cadre de spéculation hétérogène qui accélère les agents de recherche profonde en adaptant dynamiquement les stratégies de spécification aux différences d'incertitude entre les actions de recherche et de visite, permettant ainsi une accélération allant jusqu'à 3,28 fois sans compromettre la précision.

Shuzhang Zhong, Baotong Lu, Qi Chen, Chuanjie Liu, Fan Yang, Meng Li2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Le papier présente « Data Agent », un cadre de sélection de données dynamique et end-to-end qui apprend une politique de sélection adaptative guidée par des signaux de récompense combinant difficulté et incertitude, permettant d'accélérer l'entraînement tout en préservant les performances sur divers tâches et architectures.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Le papier propose PACT, un cadre d'ajustement fin qui préserve l'alignement de sécurité des grands modèles de langage en régularisant spécifiquement la confiance du modèle sur un petit sous-ensemble de tokens liés à la sécurité, évitant ainsi la dérive de l'alignement sans compromettre les performances sur les tâches en aval.

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Le papier présente Dial, un système NL2SQL ancré dans des connaissances qui améliore la génération de requêtes pour des dialectes SQL hétérogènes grâce à une planification logique adaptée, une base de connaissances hiérarchique et une boucle de débogage exécutée, surpassant ainsi les méthodes existantes sur un nouveau benchmark multi-dialectes.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

Trusting What You Cannot See: Auditable Fine-Tuning and Inference for Proprietary AI

Le papier présente AFTUNE, un cadre léger permettant aux clients d'auditer et de vérifier l'intégrité des processus de fine-tuning et d'inférence des grands modèles linguistiques hébergés dans le cloud, comblant ainsi le fossé de confiance actuel sans imposer de surcharge computationnelle prohibitive.

Heng Jin, Chaoyu Zhang, Hexuan Yu, Shanghao Shi, Ning Zhang, Y. Thomas Hou, Wenjing Lou2026-03-10🤖 cs.LG