Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

Questo paper propone un nuovo metodo di difesa contro gli attacchi di iniezione di prompt nei modelli linguistici su larga scala, che inietta segnali gerarchici di istruzione direttamente nelle rappresentazioni intermedie della rete tramite embedding addestrabili, ottenendo una riduzione significativa del tasso di successo degli attacchi rispetto alle tecniche esistenti senza compromettere l'utilità del modello.

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

Representing local protein environments with machine learning force fields

Questo lavoro propone una nuova rappresentazione degli ambienti proteici locali basata sulle caratteristiche intermedie di modelli fondazionali atomistici, dimostrando che tale embedding cattura efficacemente sia la struttura che le proprietà chimiche e permette di costruire predittori di spostamento chimico NMR all'avanguardia.

Meital Bojan, Sanketh Vedula, Advaith Maddipatla, Nadav Bojan Sellam, Anar Rzayev, Federico Napoli, Paul Schanda, Alex M. Bronstein2026-03-10💻 cs

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Il paper introduce MMTU, un nuovo benchmark su larga scala con oltre 28.000 domande su 25 compiti reali, progettato per valutare in modo completo le capacità di comprensione, ragionamento e manipolazione delle tabelle da parte dei modelli linguistici, rivelando che anche i modelli più avanzati attuali hanno ancora margini significativi di miglioramento in questo dominio.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Il documento presenta BemaGANv2, un vocoder basato su GAN avanzato per la generazione audio a lungo termine che integra innovazioni architetturali come il modulo AMP e una valutazione sistematica di diverse strategie di combinazione dei discriminatori, tra cui il nuovo Multi-Envelope Discriminator, per migliorare coerenza temporale e fedeltà del suono.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Il paper propone Co-LoRA, un metodo di apprendimento federato personalizzato che affronta l'eterogeneità sia dei dati che delle architetture dei modelli attraverso una strategia di aggregazione consapevole della rilevanza del compito e un modulo dimensionale-invariante, validato su un nuovo benchmark multi-modale che dimostra prestazioni superiori rispetto agli stati dell'arte.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Questo lavoro presenta SamS, un algoritmo efficiente che ottimizza l'adeguamento dei modelli linguistici alle preferenze umane attraverso una selezione dinamica e adattiva dei campioni di addestramento a livello di batch durante l'Ottimizzazione Diretta delle Preferenze (DPO), migliorando significativamente le prestazioni senza modificare l'algoritmo di base.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Il paper introduce MeRF, un metodo che migliora l'addestramento per rinforzo dei grandi modelli di ragionamento fornendo loro una "motivazione" testuale esplicita delle regole di ricompensa nel prompt, sfruttando così l'apprendimento in contesto per allineare la generazione alle ottimizzazioni desiderate.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Il paper presenta SUBARU, un approccio pratico che riduce il consumo energetico degli auricolari intelligenti del 3,31 volte sfruttando la sottocampionatura e la bassa risoluzione dei convertitori analogico-digitali, pur garantendo un'efficace enhancement del parlato in tempo reale tramite un innovativo metodo di upsampling.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Il paper presenta LD-RPS, un metodo zero-shot e unificato per il ripristino delle immagini che utilizza il campionamento ricorsivo del posteriore su un modello di diffusione latente pre-addestrato, integrato con un modello di comprensione multimodale per fornire priori semantici e un modulo leggero per l'allineamento, superando così i limiti dei metodi esistenti senza richiedere dataset di addestramento.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Il paper propone MCULoRA, un nuovo framework basato su un adattamento a basso rango decoupled e dinamico che risolve i conflitti di gradiente nell'addestramento di modelli per il riconoscimento delle emozioni con modalità incomplete, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

Il paper presenta Mamba Snake, un nuovo framework di deep snake basato sulla modellazione degli spazi di stato che risolve le sfide dell'segmentazione medica unificata modellando le relazioni topologiche inter-organo e affinando i contorni microscopici, ottenendo prestazioni superiori rispetto agli stati dell'arte su cinque dataset clinici.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Questo studio propone un framework di deep learning basato su Vision Transformer (ViT) che, utilizzando immagini Sentinel-2 e Formosat-5 e un approccio di apprendimento semi-supervisionato per espandere le annotazioni manuali, migliora la segmentazione delle aree colpite da disastri naturali, ottimizzando così il prodotto EVAP dell'Agenzia Spaziale Taiwanese (TASA).

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs