Learning to Reflect: Hierarchical Multi-Agent Reinforcement Learning for CSI-Free mmWave Beam-Focusing

Questo articolo propone un framework di apprendimento per rinforzo multi-agente gerarchico (HMARL) che, eliminando la necessità di stime dello stato del canale (CSI) sfruttando invece i dati di localizzazione degli utenti, ottimizza il focalizzazione dei fasci nelle reti mmWave con superfici riflettenti riconfigurabili, ottenendo significativi miglioramenti del segnale RSSI e garantendo scalabilità e robustezza in ambienti complessi.

Hieu Le, Oguz Bedir, Mostafa Ibrahim, Jian Tao, Sabit Ekin2026-03-10🤖 cs.LG

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Questo studio presenta un approccio di stima della qualità per la traduzione automatica dall'inglese alle lingue indiane in scenari a risorse limitate, dimostrando che l'adattamento degli strati intermedi tramite tecniche come ALOPE e LoRMA supera i limiti dei metodi basati esclusivamente sul prompting, specialmente nei domini ad alto rischio.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

Feed m Birds with One Scone: Accelerating Multi-task Gradient Balancing via Bi-level Optimization

Il paper presenta MARIGOLD, un nuovo framework algoritmico che risolve in modo efficiente il bilanciamento dei gradienti nell'apprendimento multi-task formulandolo come un problema di ottimizzazione bi-livello risolvibile tramite metodi di ordine zero, superando così le limitazioni computazionali dei metodi esistenti come MGDA.

Xuxing Chen, Yun He, Jiayi Xu, Minhui Huang, Xiaoyi Liu, Boyang Liu, Fei Tian, Xiaohan Wei, Rong Jin, Sem Park, Bo Long, Xue Feng2026-03-10🤖 cs.LG

Generalization in Online Reinforcement Learning for Mobile Agents

Questo lavoro presenta AndroidWorld-Generalization, un benchmark e un sistema di apprendimento per rinforzo basato su GRPO, per valutare e migliorare la capacità di generalizzazione zero-shot degli agenti mobili VLM su istanze, template e applicazioni non visti, dimostrando significativi guadagni sulle istanze ma sfide persistenti su template e app, con il rilascio completo del codice per la riproducibilità.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Il paper presenta "Data Agent", un framework end-to-end che formula la selezione dinamica dei dati come un problema di decisione sequenziale guidato da un agente che impara una politica di selezione adattiva, accelerando significativamente l'addestramento dei modelli su diverse architetture e dataset senza comprometterne le prestazioni.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Il paper presenta Dial, un sistema NL2SQL basato sulla conoscenza che supera le limitazioni dei metodi esistenti nel gestire diversi dialetti SQL attraverso una pianificazione logica consapevole del dialetto, una base di conoscenza gerarchica e un ciclo di verifica semantica, dimostrando miglioramenti significativi nell'accuratezza e nella copertura delle funzionalità su un nuovo benchmark multi-database.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Il paper presenta SLNet, una rete di riconoscimento per nuvole di punti 3D estremamente leggera e adattiva geometricamente che, grazie a componenti innovativi come NAPE e GMU, raggiunge prestazioni competitive su diversi benchmark con un numero di parametri e un costo computazionale drasticamente inferiori rispetto agli stati dell'arte.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

Trusting What You Cannot See: Auditable Fine-Tuning and Inference for Proprietary AI

Il paper presenta AFTUNE, un framework che garantisce l'integrità computazionale e l'auditabilità del fine-tuning e dell'inferenza di modelli proprietari nel cloud attraverso un meccanismo leggero di registrazione e controllo a campione, colmando il divario di fiducia senza imporre un sovraccarico computazionale proibitivo.

Heng Jin, Chaoyu Zhang, Hexuan Yu, Shanghao Shi, Ning Zhang, Y. Thomas Hou, Wenjing Lou2026-03-10🤖 cs.LG