cs.LG articoli | Gist.Science

Learning to Reflect: Hierarchical Multi-Agent Reinforcement Learning for CSI-Free mmWave Beam-Focusing

Questo articolo propone un framework di apprendimento per rinforzo multi-agente gerarchico (HMARL) che, eliminando la necessità di stime dello stato del canale (CSI) sfruttando invece i dati di localizzazione degli utenti, ottimizza il focalizzazione dei fasci nelle reti mmWave con superfici riflettenti riconfigurabili, ottenendo significativi miglioramenti del segnale RSSI e garantendo scalabilità e robustezza in ambienti complessi.

Hieu Le, Oguz Bedir, Mostafa Ibrahim, Jian Tao, Sabit Ekin2026-03-10🤖 cs.LG

ConfHit: Conformal Generative Design with Oracle Free Guarantees

Il paper introduce ConfHit, un framework generativo senza distribuzione che fornisce garanzie di validità statistiche per la scoperta di farmaci senza richiedere un oracolo sperimentale, permettendo di certificare la presenza di molecole efficaci e di ottimizzare l'insieme dei candidati mantenendo livelli di confidenza predefiniti.

Siddhartha Laghuvarapu, Ying Jin, Jimeng Sun2026-03-10🤖 cs.LG

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Questo studio presenta un approccio di stima della qualità per la traduzione automatica dall'inglese alle lingue indiane in scenari a risorse limitate, dimostrando che l'adattamento degli strati intermedi tramite tecniche come ALOPE e LoRMA supera i limiti dei metodi basati esclusivamente sul prompting, specialmente nei domini ad alto rischio.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

Sparsity and Out-of-Distribution Generalization

Questo articolo propone un quadro teorico per la generalizzazione fuori distribuzione basato sulla sparsità delle ipotesi e sull'uso di caratteristiche distinte, dimostrando che le ipotesi sparse generalizzano correttamente quando le distribuzioni di addestramento e di test si sovrappongono sufficientemente sulle caratteristiche rilevanti.

Scott Aaronson, Lin Lin Lee, Jiawei Li2026-03-10🤖 cs.LG

Feed m Birds with One Scone: Accelerating Multi-task Gradient Balancing via Bi-level Optimization

Il paper presenta MARIGOLD, un nuovo framework algoritmico che risolve in modo efficiente il bilanciamento dei gradienti nell'apprendimento multi-task formulandolo come un problema di ottimizzazione bi-livello risolvibile tramite metodi di ordine zero, superando così le limitazioni computazionali dei metodi esistenti come MGDA.

Xuxing Chen, Yun He, Jiayi Xu, Minhui Huang, Xiaoyi Liu, Boyang Liu, Fei Tian, Xiaohan Wei, Rong Jin, Sem Park, Bo Long, Xue Feng2026-03-10🤖 cs.LG

Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval

Il paper propone un sistema di triage fuzzy deterministico basato su un encoder duale RoBERTa e bande di calibrazione trasparenti per classificare la conformità legale e recuperare prove, offrendo un approccio riproducibile e spiegabile che bilancia l'automazione con vincoli di errore rigorosi per soddisfare i requisiti normativi.

Rian Atri2026-03-10🤖 cs.LG

Generalizing Linear Autoencoder Recommenders with Decoupled Expected Quadratic Loss

Questo lavoro generalizza gli autoencoder lineari per sistemi di raccomandazione introducendo una Decoupled Expected Quadratic Loss (DEQL) che, estendendo la ricerca delle soluzioni ottimali al caso $b > 0$ e proponendo un algoritmo efficiente, supera le prestazioni del modello EDLAE originale con $b = 0$ .

Ruixin Guo, Xinyu Li, Hao Zhou, Yang Zhou, Ruoming Jin2026-03-10🤖 cs.LG

Context Channel Capacity: An Information-Theoretic Framework for Understanding Catastrophic Forgetting

Questo lavoro introduce il concetto di "Capacità del Canale Contestuale" ( $C_\mathrm{ctx}$ ) come principio informativo unificante che spiega il dimenticamento catastrofico, dimostrando che l'architettura, piuttosto che l'algoritmo, è determinante per il successo nell'apprendimento continuo e proponendo nuove direzioni di ricerca basate su questa teoria.

Ran Cheng2026-03-10🤖 cs.LG

DualSpec: Accelerating Deep Research Agents via Dual-Process Action Speculation

Il paper presenta DualSpec, un framework di speculazione eterogenea che accelera gli agenti di ricerca profonda sfruttando le differenze tra le azioni di ricerca e visita per ottenere un'accelerazione fino a 3,28 volte mantenendo l'accuratezza.

Shuzhang Zhong, Baotong Lu, Qi Chen, Chuanjie Liu, Fan Yang, Meng Li2026-03-10🤖 cs.LG

OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions

Il paper presenta OrthoFormer, un'architettura Transformer basata su variabili strumentali e funzioni di controllo neurale che integra l'identificazione causale direttamente nei blocchi del modello per superare i limiti dell'apprendimento correlazionale e garantire robustezza nei confronti di cambiamenti nella distribuzione dei dati.

Charles Luo2026-03-10🤖 cs.LG

Generalization in Online Reinforcement Learning for Mobile Agents

Questo lavoro presenta AndroidWorld-Generalization, un benchmark e un sistema di apprendimento per rinforzo basato su GRPO, per valutare e migliorare la capacità di generalizzazione zero-shot degli agenti mobili VLM su istanze, template e applicazioni non visti, dimostrando significativi guadagni sulle istanze ma sfide persistenti su template e app, con il rilascio completo del codice per la riproducibilità.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Il paper presenta "Data Agent", un framework end-to-end che formula la selezione dinamica dei dati come un problema di decisione sequenziale guidato da un agente che impara una politica di selezione adattiva, accelerando significativamente l'addestramento dei modelli su diverse architetture e dataset senza comprometterne le prestazioni.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

Cost-Driven Representation Learning for Linear Quadratic Gaussian Control: Part II

Questo lavoro stabilisce garanzie finite-campiono per l'apprendimento di rappresentazioni dello stato guidate dai costi e per il controllo ottimale in problemi LQG a orizzonte infinito, analizzando sia modelli latenti espliciti che impliciti (simili a MuZero) e provando la persistenza dell'eccitazione per un nuovo processo stocastico.

Yi Tian, Kaiqing Zhang, Russ Tedrake, Suvrit Sra2026-03-10🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Il paper propone PACT, un framework di fine-tuning che preserva l'allineamento alla sicurezza dei grandi modelli linguistici regolando la confidenza su un piccolo sottoinsieme di token critici, evitando così il drift di sicurezza senza compromettere le prestazioni nei compiti downstream.

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang2026-03-10🤖 cs.LG

Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

Il paper dimostra che una tokenizzazione discreta semplice, combinata con un'adeguata regolarizzazione gaussiana, consente ai Transformer di superare le prestazioni e la calibrazione dei modelli di gradient boosting su grandi dataset tabulari.

Yael S. Elmatad2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Il paper presenta Dial, un sistema NL2SQL basato sulla conoscenza che supera le limitazioni dei metodi esistenti nel gestire diversi dialetti SQL attraverso una pianificazione logica consapevole del dialetto, una base di conoscenza gerarchica e un ciclo di verifica semantica, dimostrando miglioramenti significativi nell'accuratezza e nella copertura delle funzionalità su un nuovo benchmark multi-database.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Il paper presenta SLNet, una rete di riconoscimento per nuvole di punti 3D estremamente leggera e adattiva geometricamente che, grazie a componenti innovativi come NAPE e GMU, raggiunge prestazioni competitive su diversi benchmark con un numero di parametri e un costo computazionale drasticamente inferiori rispetto agli stati dell'arte.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

Questo lavoro introduce il Dual-Stream Transformer, un'architettura che scompone il flusso residuo in due componenti funzionalmente distinte per bilanciare interpretabilità e prestazioni, dimostrando che strategie di mixing controllate permettono di mantenere una generazione robusta pur esponendo la struttura interna del modello.

J. Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

Trusting What You Cannot See: Auditable Fine-Tuning and Inference for Proprietary AI

Il paper presenta AFTUNE, un framework che garantisce l'integrità computazionale e l'auditabilità del fine-tuning e dell'inferenza di modelli proprietari nel cloud attraverso un meccanismo leggero di registrazione e controllo a campione, colmando il divario di fiducia senza imporre un sovraccarico computazionale proibitivo.

Heng Jin, Chaoyu Zhang, Hexuan Yu, Shanghao Shi, Ning Zhang, Y. Thomas Hou, Wenjing Lou2026-03-10🤖 cs.LG

Probabilistic Inference and Learning with Stein's Method

Questo monografia offre una panoramica rigorosa degli aspetti teorici e metodologici dell'inferenza probabilistica e dell'apprendimento con il metodo di Stein, fornendo ricette per costruire discrepanze di Stein, discutendone le proprietà e dettagliando la connessione con la discesa del gradiente variazionale di Stein.

Qiang Liu, Lester Mackey, Chris Oates2026-03-10🤖 cs.LG

← Precedente Successivo →