cs.AI articoli | Gist.Science

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

Il paper introduce OOD-MMSafe, un benchmark e un framework di ottimizzazione chiamato CASPO, per superare la "cecità causale" dei modelli MLLM spostando l'allineamento alla sicurezza dalla semplice rilevazione delle intenzioni malevole alla previsione delle conseguenze nascoste.

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Il paper introduce MUGEN, un benchmark completo che rivela le carenze dei modelli audio-linguistici nella comprensione di più audio simultanei e dimostra che strategie di inferenza senza addestramento, come la permutazione degli input e il ragionamento a catena, possono migliorare significativamente le prestazioni.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Il paper propone CVS, un metodo di selezione dei dati privo di addestramento che utilizza un VLLM congelato per identificare campioni che richiedono un ragionamento congiunto visione-linguaggio, migliorando le prestazioni dei modelli multimodali con meno dati e costi computazionali ridotti.

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang Li2026-03-11🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

Il paper presenta AutoAgent, un framework multi-agente auto-evolutivo che integra cognizione dinamica, orchestrazione elastica della memoria e decisioni contestuali in tempo reale per superare i limiti degli agenti autonomi statici in ambienti non stazionari.

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu Xiong2026-03-11🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Il paper presenta RbtAct, un approccio che utilizza le risposte degli autori (rebuttal) come supervisione implicita per addestrare modelli linguistici a generare feedback di revisione scientifica più concreti e azionabili, supportato da un nuovo dataset e da un compito di generazione mirata.

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Il paper introduce EXPLORE-Bench, un nuovo benchmark basato su video in prima persona per valutare la capacità dei modelli linguistici multimodali di prevedere le conseguenze fisiche a lungo termine di azioni sequenziali in scenari egocentrici, evidenziando un significativo divario rispetto alle prestazioni umane e l'efficacia parziale del ragionamento passo-passo nel colmarlo.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

Ego: Embedding-Guided Personalization of Vision-Language Models

Il paper propone un metodo efficiente per la personalizzazione dei modelli visione-linguaggio che, sfruttando i meccanismi di attenzione interna per estrarre token visivi come memoria concettuale, supera i limiti di scalabilità e complessità delle approcci esistenti senza richiedere fasi di addestramento aggiuntive.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

Il paper presenta World2Mind, un toolkit di intelligenza spaziale senza addestramento che, ispirandosi alla mappatura cognitiva biologica, costruisce mappe spaziali strutturate e un albero allocentrico per potenziare il ragionamento spaziale allocentrico nei modelli fondazionali, permettendo persino a modelli puramente testuali di raggiungere prestazioni vicine a quelle dei modelli multimodali avanzati.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Questo studio dimostra che l'inferenza basata sulla simulazione (SBI) è uno strumento efficace per la stima dei parametri dei modelli di interazione neutrino-nucleone, ottenendo un migliore adattamento ai dati sperimentali rispetto alle configurazioni precedentemente sintonizzate e mostrando la capacità di approssimare anche simulazioni con modelli fisici diversi.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph

Quantifying the Necessity of Chain of Thought through Opaque Serial Depth

Questo paper introduce il concetto di "profondità seriale opaca" per quantificare la capacità dei modelli linguistici di eseguire ragionamenti complessi senza passaggi intermedi interpretabili, fornendo limiti superiori calcolati per modelli come Gemma 3 e un metodo automatizzato per analizzare diverse architetture neurali.

Jonah Brown-Cohen, David Lindner, Rohin Shah2026-03-11🤖 cs.AI

A Hybrid Quantum-Classical Framework for Financial Volatility Forecasting Based on Quantum Circuit Born Machines

Questo articolo propone un nuovo framework ibrido quantistico-classico che combina una rete LSTM con una Quantum Circuit Born Machine per migliorare l'accuratezza delle previsioni di volatilità finanziaria, dimostrando risultati superiori rispetto ai modelli classici puri su dati reali del mercato cinese.

Yixiong Chen2026-03-11⚛️ quant-ph

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

Il paper propone ACP-SL, uno schema di apprendimento diviso che riduce l'overhead di comunicazione comprimendo i dati intermedi tramite una potatura adattiva dei canali basata su un punteggio di importanza consapevole dell'etichetta, ottenendo al contempo una maggiore accuratezza e un numero inferiore di round di addestramento rispetto alle soluzioni esistenti.

Jialei Tan, Zheng Lin, Xiangming Cai, Ruoxi Zhu, Zihan Fang, Pingping Chen, Wei Ni2026-03-11🤖 cs.AI

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Il paper presenta MITRA, un assistente AI basato su Retrieval-Augmented Generation (RAG) ospitato on-premise per le collaborazioni scientifiche come CMS, che utilizza un'architettura a due livelli e tecniche di estrazione avanzate per recuperare in modo sicuro ed efficiente informazioni da vasti corpus di documentazione interna.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

Correction of Transformer-Based Models with Smoothing Pseudo-Projector

Il paper propone il "pseudo-proiettore", una modifica leggera ispirata al paradigma multigriglia che corregge le rappresentazioni nascoste dei modelli basati su transformer riducendo la sensibilità al rumore e migliorando la dinamica di addestramento e la robustezza senza alterare l'architettura di base.

Vitaly Bulgakov2026-03-11🤖 cs.AI

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Il paper introduce MA-EgoQA, un nuovo benchmark e un modello di base chiamato EgoMAS progettati per valutare e migliorare la capacità dei sistemi di intelligenza artificiale di comprendere e rispondere a domande basate su flussi video egocentrici simultanei provenienti da più agenti incarnati.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Questo articolo presenta SCENEBench, una nuova suite di benchmark progettata per valutare la comprensione audio dei modelli linguistici audio di grandi dimensioni (LALM) al di là del riconoscimento vocale, concentrandosi su scenari reali legati all'accessibilità e al monitoraggio industriale come la comprensione dei suoni ambientali, la localizzazione del rumore e il riconoscimento delle caratteristiche vocali.

Laya Iyer, Angelina Wang, Sanmi Koyejo2026-03-11🤖 cs.AI

A Graph-Based Approach to Spectrum Demand Prediction Using Hierarchical Attention Networks

Questo articolo presenta HR-GAT, un modello di rete neurale a attenzione gerarchica basato su grafi che utilizza dati geospaziali per prevedere la domanda di spettro radio, dimostrando una precisione superiore del 21% rispetto ad altri modelli in cinque città canadesi.

Mohamad Alkadamani, Halim Yanikomeroglu, Amir Ghasemi2026-03-11🤖 cs.AI

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Questo articolo presenta il framework DAPL, che facilita l'apprendimento di politiche dinamiche consapevoli per abilitare la destrezza estrinseca in scenari affollati, superando i metodi esistenti grazie a una modellazione esplicita delle dinamiche indotte dal contatto e ottenendo risultati superiori sia in simulazione che nel mondo reale.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He Wang2026-03-11🤖 cs.AI

LCA: Local Classifier Alignment for Continual Learning

Il paper propone un nuovo approccio per l'apprendimento continuo basato sulla "Local Classifier Alignment" (LCA), una funzione di perdita che allinea i classificatori specifici per compito al backbone adattato, mitigando il fenomeno della catastrofica dimenticanza e ottenendo prestazioni superiori rispetto agli stati dell'arte su diversi benchmark.

Tung Tran, Danilo Vasconcellos Vargas, Khoat Than2026-03-11🤖 cs.AI

Influencing LLM Multi-Agent Dialogue via Policy-Parameterized Prompts

Questo paper propone un framework innovativo che tratta i prompt come azioni parametrizzate per influenzare il comportamento e la dinamica delle conversazioni tra agenti basati su LLM senza necessità di addestramento, offrendo un approccio leggero e efficace per la simulazione sociale.

Hongbo Bo, Jingyu Hu, Weiru Liu2026-03-11🤖 cs.AI

← Precedente Successivo →