AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Il paper presenta AutoViVQA, un dataset su larga scala per il Visual Question Answering in vietnamita costruito automaticamente, e ne esamina l'efficacia utilizzando architetture basate su transformer e confrontando diverse metriche di valutazione automatica in contesti multilingue.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Il paper presenta ESAinsTOD, un framework unificato end-to-end per il dialogo orientato al compito che, attraverso l'addestramento su istruzioni e meccanismi di allineamento allo schema, supera i modelli esistenti offrendo prestazioni superiori, maggiore robustezza al rumore e capacità di generalizzazione in scenari a risorse limitate.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Il paper introduce ActiveUltraFeedback, una pipeline di apprendimento attivo modulare che riduce significativamente i costi di annotazione dei dati di preferenza per l'allineamento dei modelli linguistici, ottenendo prestazioni superiori o paragonabili a quelle dei metodi statici con solo un sesto dei dati necessari.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Il paper propone Mousse, un nuovo ottimizzatore che combina la stabilità spettrale di Muon con l'adattabilità geometrica di Shampoo tramite una precondizionamento consapevole della curvatura, ottenendo una riduzione del 12% dei passi di addestramento per modelli linguistici senza sovraccarichi computazionali significativi.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Il paper introduce MUGEN, un benchmark completo che rivela le carenze dei modelli audio-linguistici nella comprensione di più audio simultanei e dimostra che strategie di inferenza senza addestramento, come la permutazione degli input e il ragionamento a catena, possono migliorare significativamente le prestazioni.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Il paper introduce EXPLORE-Bench, un nuovo benchmark basato su video in prima persona per valutare la capacità dei modelli linguistici multimodali di prevedere le conseguenze fisiche a lungo termine di azioni sequenziali in scenari egocentrici, evidenziando un significativo divario rispetto alle prestazioni umane e l'efficacia parziale del ragionamento passo-passo nel colmarlo.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

Il paper presenta World2Mind, un toolkit di intelligenza spaziale senza addestramento che, ispirandosi alla mappatura cognitiva biologica, costruisce mappe spaziali strutturate e un albero allocentrico per potenziare il ragionamento spaziale allocentrico nei modelli fondazionali, permettendo persino a modelli puramente testuali di raggiungere prestazioni vicine a quelle dei modelli multimodali avanzati.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Questo studio dimostra che l'inferenza basata sulla simulazione (SBI) è uno strumento efficace per la stima dei parametri dei modelli di interazione neutrino-nucleone, ottenendo un migliore adattamento ai dati sperimentali rispetto alle configurazioni precedentemente sintonizzate e mostrando la capacità di approssimare anche simulazioni con modelli fisici diversi.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

Il paper propone ACP-SL, uno schema di apprendimento diviso che riduce l'overhead di comunicazione comprimendo i dati intermedi tramite una potatura adattiva dei canali basata su un punteggio di importanza consapevole dell'etichetta, ottenendo al contempo una maggiore accuratezza e un numero inferiore di round di addestramento rispetto alle soluzioni esistenti.

Jialei Tan, Zheng Lin, Xiangming Cai, Ruoxi Zhu, Zihan Fang, Pingping Chen, Wei Ni2026-03-11🤖 cs.AI

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Questo articolo presenta SCENEBench, una nuova suite di benchmark progettata per valutare la comprensione audio dei modelli linguistici audio di grandi dimensioni (LALM) al di là del riconoscimento vocale, concentrandosi su scenari reali legati all'accessibilità e al monitoraggio industriale come la comprensione dei suoni ambientali, la localizzazione del rumore e il riconoscimento delle caratteristiche vocali.

Laya Iyer, Angelina Wang, Sanmi Koyejo2026-03-11🤖 cs.AI