cs.LG articles | Gist.Science

Learning to Reflect: Hierarchical Multi-Agent Reinforcement Learning for CSI-Free mmWave Beam-Focusing

Cet article propose un cadre d'apprentissage par renforcement multi-agent hiérarchique (HMARL) pour le contrôle de surfaces réfléchissantes reconfigurables dans les systèmes mmWave, éliminant la surcharge d'estimation de l'état du canal en utilisant des données de localisation pour optimiser la focalisation des faisceaux avec une efficacité et une robustesse supérieures aux méthodes centralisées.

Hieu Le, Oguz Bedir, Mostafa Ibrahim, Jian Tao, Sabit Ekin2026-03-10🤖 cs.LG

ConfHit: Conformal Generative Design with Oracle Free Guarantees

ConfHit est un cadre de conception générative sans distribution qui fournit des garanties de validité pour la découverte de médicaments sans oracle expérimental, en certifiant statistiquement la présence de molécules actives et en affinant les ensembles de candidats générés.

Siddhartha Laghuvarapu, Ying Jin, Jimeng Sun2026-03-10🤖 cs.LG

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Cette étude propose une méthode d'estimation de qualité pour la traduction automatique vers des langues indiennes en ressources limitées, démontrant que l'adaptation des couches intermédiaires de grands modèles de langage (via ALOPE et LoRMA) surpasse les approches par simple prompt pour garantir une robustesse accrue, notamment dans les domaines à haut risque.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

Sparsity and Out-of-Distribution Generalization

Cet article propose une explication théorique de la généralisation hors distribution fondée sur la parcimonie des hypothèses et le chevauchement des distributions sur les caractéristiques pertinentes, en démontrant un théorème qui étend les bornes de complexité d'échantillonnage classiques à ce contexte.

Scott Aaronson, Lin Lin Lee, Jiawei Li2026-03-10🤖 cs.LG

Feed m Birds with One Scone: Accelerating Multi-task Gradient Balancing via Bi-level Optimization

Ce papier présente MARIGOLD, un cadre algorithmique unifié qui accélère l'équilibrage des gradients en apprentissage multi-tâches en modélisant le problème comme une optimisation bi-niveau résolue efficacement par une méthode d'ordre zéro, surmontant ainsi les limitations de coût computationnel des méthodes existantes comme MGDA.

Xuxing Chen, Yun He, Jiayi Xu, Minhui Huang, Xiaoyi Liu, Boyang Liu, Fei Tian, Xiaohan Wei, Rong Jin, Sem Park, Bo Long, Xue Feng2026-03-10🤖 cs.LG

Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval

Cet article présente une méthode de triage déterministe et reproductible pour la conformité juridique, combinant un encodeur dual RoBERTa et des bandes floues calibrées afin d'offrir une alternative transparente et vérifiable aux modèles opaques, tout en garantissant une couverture de décision automatique élevée avec un taux d'erreur contrôlé.

Rian Atri2026-03-10🤖 cs.LG

Generalizing Linear Autoencoder Recommenders with Decoupled Expected Quadratic Loss

Cet article généralise l'objectif de l'autoencodeur linéaire EDLAE en un « Decoupled Expected Quadratic Loss » (DEQL) qui permet de dériver et de calculer efficacement des solutions pour des hyperparamètres $b > 0$ , surpassant ainsi les performances du modèle original limité à $b = 0$ .

Ruixin Guo, Xinyu Li, Hao Zhou, Yang Zhou, Ruoming Jin2026-03-10🤖 cs.LG

Context Channel Capacity: An Information-Theoretic Framework for Understanding Catastrophic Forgetting

Cet article propose un cadre informationnel fondé sur la « capacité du canal contextuel » pour expliquer et prévenir l'oubli catastrophique en apprentissage continu, démontrant que les architectures conditionnelles de régénération de paramètres surpassent les méthodes traditionnelles en satisfaisant une condition d'information mutuelle nécessaire.

Ran Cheng2026-03-10🤖 cs.LG

DualSpec: Accelerating Deep Research Agents via Dual-Process Action Speculation

Le papier présente DualSpec, un cadre de spéculation hétérogène qui accélère les agents de recherche profonde en adaptant dynamiquement les stratégies de spécification aux différences d'incertitude entre les actions de recherche et de visite, permettant ainsi une accélération allant jusqu'à 3,28 fois sans compromettre la précision.

Shuzhang Zhong, Baotong Lu, Qi Chen, Chuanjie Liu, Fan Yang, Meng Li2026-03-10🤖 cs.LG

OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions

L'article présente OrthoFormer, une nouvelle architecture Transformer intégrant l'estimation par variables instrumentales via des fonctions de contrôle neuronales pour séparer les mécanismes causaux des facteurs de confusion latents et garantir une robustesse face aux changements de distribution.

Charles Luo2026-03-10🤖 cs.LG

Generalization in Online Reinforcement Learning for Mobile Agents

Cet article présente AndroidWorld-Generalization, un nouveau benchmark et un système d'apprentissage par renforcement intégrant GRPO, conçus pour évaluer et améliorer la capacité de généralisation des agents mobiles basés sur des modèles vision-langage vers des tâches, modèles et applications non vus.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Le papier présente « Data Agent », un cadre de sélection de données dynamique et end-to-end qui apprend une politique de sélection adaptative guidée par des signaux de récompense combinant difficulté et incertitude, permettant d'accélérer l'entraînement tout en préservant les performances sur divers tâches et architectures.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

Cost-Driven Representation Learning for Linear Quadratic Gaussian Control: Part II

Ce travail établit des garanties à échantillon fini pour l'apprentissage de représentations d'état pilotées par le coût dans le cadre du contrôle LQG infini, en comparant deux approches de modélisation dynamique latente, dont l'une inspirée de MuZero, tout en prouvant la persistance de l'excitation pour un nouveau processus stochastique.

Yi Tian, Kaiqing Zhang, Russ Tedrake, Suvrit Sra2026-03-10🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Le papier propose PACT, un cadre d'ajustement fin qui préserve l'alignement de sécurité des grands modèles de langage en régularisant spécifiquement la confiance du modèle sur un petit sous-ensemble de tokens liés à la sécurité, évitant ainsi la dérive de l'alignement sans compromettre les performances sur les tâches en aval.

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang2026-03-10🤖 cs.LG

Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

Cet article démontre qu'une discrétisation simple des données tabulaires combinée à un lissage gaussien adaptatif permet aux Transformers de surpasser les méthodes de gradient boosting comme XGBoost tout en fournissant des prévisions calibrées.

Yael S. Elmatad2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Le papier présente Dial, un système NL2SQL ancré dans des connaissances qui améliore la génération de requêtes pour des dialectes SQL hétérogènes grâce à une planification logique adaptée, une base de connaissances hiérarchique et une boucle de débogage exécutée, surpassant ainsi les méthodes existantes sur un nouveau benchmark multi-dialectes.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Ce papier présente SLNet, un réseau d'apprentissage profond ultra-léger et adaptatif géométriquement pour la reconnaissance de nuages de points 3D, qui atteint des performances compétitives sur plusieurs benchmarks avec une fraction des paramètres et de la complexité computationnelle des modèles de pointe actuels.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

Ce papier présente le Dual-Stream Transformer, une architecture qui décompose le flux résiduel en deux courants fonctionnels distincts pour offrir un compromis réglable entre interprétabilité et performance, tout en démontrant une robustesse remarquable face à l'amplification des logits.

J. Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

Trusting What You Cannot See: Auditable Fine-Tuning and Inference for Proprietary AI

Le papier présente AFTUNE, un cadre léger permettant aux clients d'auditer et de vérifier l'intégrité des processus de fine-tuning et d'inférence des grands modèles linguistiques hébergés dans le cloud, comblant ainsi le fossé de confiance actuel sans imposer de surcharge computationnelle prohibitive.

Heng Jin, Chaoyu Zhang, Hexuan Yu, Shanghao Shi, Ning Zhang, Y. Thomas Hou, Wenjing Lou2026-03-10🤖 cs.LG

Probabilistic Inference and Learning with Stein's Method

Ce monographie offre un aperçu rigoureux des aspects théoriques et méthodologiques de l'inférence probabiliste et de l'apprentissage par la méthode de Stein, en détaillant la construction des écarts de Stein, leurs propriétés et leur lien avec la descente de gradient variationnelle de Stein.

Qiang Liu, Lester Mackey, Chris Oates2026-03-10🤖 cs.LG

← Précédent Suivant →