Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

Questo paper propone un nuovo metodo di difesa contro gli attacchi di iniezione di prompt nei modelli linguistici su larga scala, che inietta segnali gerarchici di istruzione direttamente nelle rappresentazioni intermedie della rete tramite embedding addestrabili, ottenendo una riduzione significativa del tasso di successo degli attacchi rispetto alle tecniche esistenti senza compromettere l'utilità del modello.

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Il paper introduce MMTU, un nuovo benchmark su larga scala con oltre 28.000 domande su 25 compiti reali, progettato per valutare in modo completo le capacità di comprensione, ragionamento e manipolazione delle tabelle da parte dei modelli linguistici, rivelando che anche i modelli più avanzati attuali hanno ancora margini significativi di miglioramento in questo dominio.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Il paper presenta EROICA, il primo sistema di risoluzione dei problemi di prestazioni online per l'addestramento di modelli su larga scala, che combina profilazione dettagliata e osservabilità differenziale per diagnosticare con successo sia problemi hardware che software su cluster di GPU di produzione.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan Zhai2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Il documento presenta BemaGANv2, un vocoder basato su GAN avanzato per la generazione audio a lungo termine che integra innovazioni architetturali come il modulo AMP e una valutazione sistematica di diverse strategie di combinazione dei discriminatori, tra cui il nuovo Multi-Envelope Discriminator, per migliorare coerenza temporale e fedeltà del suono.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Il paper propone Co-LoRA, un metodo di apprendimento federato personalizzato che affronta l'eterogeneità sia dei dati che delle architetture dei modelli attraverso una strategia di aggregazione consapevole della rilevanza del compito e un modulo dimensionale-invariante, validato su un nuovo benchmark multi-modale che dimostra prestazioni superiori rispetto agli stati dell'arte.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback

Il paper propone due algoritmi efficienti, Slate-GLU-OFU e Slate-GLM-TS, per il problema dei banditi contestuali a slate logistici che, combinando una pianificazione locale con un apprendimento globale, raggiungono un basso rimpianto e una complessità computazionale ridotta, dimostrando efficacia sia in ambienti sintetici che nell'ottimizzazione di esempi in contesto per modelli linguistici.

Tanmay Goyal, Gaurav Sinha2026-03-10🤖 cs.LG

Sharpness-Aware Machine Unlearning

Questo lavoro dimostra che l'ottimizzazione Sharpness-Aware (SAM) migliora l'oblio delle macchine riducendo l'interferenza tra segnali di mantenimento e di rimozione, e propone il metodo "Sharp MinMax" che combina SAM e massimizzazione della sharpness per ottenere un disaccoppiamento superiore tra i dati da mantenere e quelli da dimenticare, garantendo una maggiore robustezza agli attacchi di inferenza di appartenenza.

Haoran Tang, Rajiv Khanna2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Questo lavoro presenta SamS, un algoritmo efficiente che ottimizza l'adeguamento dei modelli linguistici alle preferenze umane attraverso una selezione dinamica e adattiva dei campioni di addestramento a livello di batch durante l'Ottimizzazione Diretta delle Preferenze (DPO), migliorando significativamente le prestazioni senza modificare l'algoritmo di base.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

Il paper presenta DemoDiffusion, un metodo che permette ai robot di imitare un'unica dimostrazione umana per eseguire compiti di manipolazione, combinando la retargeting cinematica con una politica di diffusione pre-addestrata per ottenere un tasso di successo significativamente superiore rispetto alle tecniche esistenti senza necessità di dati umani-robot accoppiati o addestramento specifico.

Sungjae Park, Homanga Bharadhwaj, Shubham Tulsiani2026-03-10🤖 cs.LG