EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Il paper introduce EXPLORE-Bench, un nuovo benchmark basato su video in prima persona per valutare la capacità dei modelli linguistici multimodali di prevedere le conseguenze fisiche a lungo termine di azioni sequenziali in scenari egocentrici, evidenziando un significativo divario rispetto alle prestazioni umane e l'efficacia parziale del ragionamento passo-passo nel colmarlo.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

Il paper presenta World2Mind, un toolkit di intelligenza spaziale senza addestramento che, ispirandosi alla mappatura cognitiva biologica, costruisce mappe spaziali strutturate e un albero allocentrico per potenziare il ragionamento spaziale allocentrico nei modelli fondazionali, permettendo persino a modelli puramente testuali di raggiungere prestazioni vicine a quelle dei modelli multimodali avanzati.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Questo studio dimostra che l'inferenza basata sulla simulazione (SBI) è uno strumento efficace per la stima dei parametri dei modelli di interazione neutrino-nucleone, ottenendo un migliore adattamento ai dati sperimentali rispetto alle configurazioni precedentemente sintonizzate e mostrando la capacità di approssimare anche simulazioni con modelli fisici diversi.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

Il paper propone ACP-SL, uno schema di apprendimento diviso che riduce l'overhead di comunicazione comprimendo i dati intermedi tramite una potatura adattiva dei canali basata su un punteggio di importanza consapevole dell'etichetta, ottenendo al contempo una maggiore accuratezza e un numero inferiore di round di addestramento rispetto alle soluzioni esistenti.

Jialei Tan, Zheng Lin, Xiangming Cai, Ruoxi Zhu, Zihan Fang, Pingping Chen, Wei Ni2026-03-11🤖 cs.AI

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Questo articolo presenta SCENEBench, una nuova suite di benchmark progettata per valutare la comprensione audio dei modelli linguistici audio di grandi dimensioni (LALM) al di là del riconoscimento vocale, concentrandosi su scenari reali legati all'accessibilità e al monitoraggio industriale come la comprensione dei suoni ambientali, la localizzazione del rumore e il riconoscimento delle caratteristiche vocali.

Laya Iyer, Angelina Wang, Sanmi Koyejo2026-03-11🤖 cs.AI

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Questo articolo presenta il framework DAPL, che facilita l'apprendimento di politiche dinamiche consapevoli per abilitare la destrezza estrinseca in scenari affollati, superando i metodi esistenti grazie a una modellazione esplicita delle dinamiche indotte dal contatto e ottenendo risultati superiori sia in simulazione che nel mondo reale.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He Wang2026-03-11🤖 cs.AI

MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems

Il paper presenta MedMASLab, un framework unificato e una piattaforma di benchmarking per sistemi multi-agente medici multimodali che affronta la frammentazione architettonica attraverso un protocollo di comunicazione standardizzato, un valutatore automatico del ragionamento clinico e un vasto benchmark su 473 malattie, rivelando al contempo una significativa fragilità delle attuali architetture nel transito tra diversi sottodomini medici.

Yunhang Qian, Xiaobin Hu, Jiaquan Yu, Siyang Xin, Xiaokun Chen, Jiangning Zhang, Peng-Tao Jiang, Jiawei Liu, Hongwei Bran Li2026-03-11🤖 cs.AI