cs.AI articoli | Gist.Science

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Il paper introduce EgoCross, un benchmark completo per valutare la capacità di generalizzazione cross-dominio dei Modelli Linguistici Multimodali nella risposta a domande su video in prima persona, coprendo scenari complessi come chirurgia, industria, sport estremi e visione animale e rivelando le attuali limitazioni dei modelli esistenti.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Questo studio propone un approccio innovativo che utilizza avatar virtuali e musica generata dall'intelligenza artificiale per trasformare i programmi didattici testuali in canzoni audiovisive, migliorando significativamente l'engagement, la comprensione e il ricordo delle informazioni essenziali da parte degli studenti.

Xinxing Wu2026-03-11🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

Il paper presenta TaoSR1, un framework che adatta i Large Language Models per la ricerca di rilevanza nell'e-commerce attraverso un processo in tre fasi di addestramento con Chain-of-Thought e ottimizzazione delle preferenze, risolvendo problemi di allucinazione e fattibilità di deployment per ottenere prestazioni superiori rispetto ai modelli basati su BERT.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng2026-03-11🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

Il paper introduce CMASE, un framework per esperimenti computazionali di società multi-agente che integra agenti generativi ed etnografia virtuale per trasformare i ricercatori in partecipanti embedded, consentendo di simulare fenomeni sociali complessi con rigore statistico e profondità interpretativa.

Hanzhong Zhang, Muhua Huang, Jindong Wang2026-03-11🤖 cs.AI

VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft

Il paper presenta VistaWise, un agente economico per Minecraft che integra un grafo di conoscenza cross-modale e un modello di rilevamento oggetti finetunato per ridurre drasticamente il fabbisogno di dati di addestramento e raggiungere prestazioni all'avanguardia nelle decisioni embodied.

Honghao Fu, Junlong Ren, Qi Chai, Deheng Ye, Yujun Cai, Hao Wang2026-03-11🤖 cs.AI

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Il paper presenta SEER, un framework adattivo che comprime il ragionamento a catena di pensiero (CoT) nei modelli linguistici di grandi dimensioni riducendo significativamente la latenza e i costi computazionali senza compromettere l'accuratezza, specialmente nei task di ingegneria del software.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin Xia2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Hardness of Approximation

Questo articolo dimostra come l'agente di mutazione del codice basato su LLM chiamato AlphaEvolve possa essere utilizzato per ottenere nuovi risultati di inapprossimabilità e limiti superiori/inferiori per problemi combinatori come MAX-CUT, MAX-4-CUT, MAX-3-CUT e il TSP metrico, migliorando gli stati dell'arte attuali attraverso la scoperta automatizzata di riduzioni e gadget.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Il paper presenta VSSFlow, un framework unificato basato sul flusso di matching che risolve congiuntamente la generazione di suoni e parlato condizionata dal video, superando le prestazioni dei modelli specifici per dominio grazie a un meccanismo di aggregazione delle condizioni disaccoppiato e all'apprendimento congiunto.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Il paper presenta VoiceBridge, un modello ponte latente in un singolo passo basato su un autoencoder variazionale a conservazione energetica e un prior neurale congiunto, che permette la generazione efficiente e ad alta fedeltà di parlato a 48 kHz da diverse distorsioni senza necessità di distillazione.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun Zhu2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Il paper introduce v-HUB, un nuovo benchmark per la comprensione dell'umorismo nei video basato su segnali visivi e sonori, dimostrando attraverso la valutazione di diversi modelli MLLM che l'integrazione dell'audio migliora significativamente le prestazioni in questo compito complesso.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

Latent Speech-Text Transformer

Il paper introduce il Latent Speech-Text Transformer (LST), un modello che migliora l'efficienza computazionale e le prestazioni di comprensione e generazione sia vocale che testuale aggregando i token vocali in patch latenti, riducendo così la lunghezza delle sequenze e bilanciando l'elaborazione tra le due modalità.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Il paper presenta AlphaApollo, un sistema di ragionamento agentic che affronta le limitazioni nella risoluzione di problemi complessi e nell'evoluzione affidabile dei modelli fondazione attraverso tre componenti chiave: ragionamento multi-turno, apprendimento multi-turno e evoluzione multi-round, dimostrando significativi miglioramenti delle prestazioni su vari benchmark matematici.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Il paper introduce NavSpace, un benchmark per valutare le capacità di percezione e ragionamento spaziale degli agenti di navigazione, e propone SNav, un nuovo modello che supera le prestazioni degli agenti esistenti sia sul benchmark che su robot reali.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

RECODE: Reasoning Through Code Generation for Visual Question Answering

Il paper presenta RECODE, un framework agentico che migliora il ragionamento visivo nei modelli multimodali trasformando l'analisi di grafici e diagrammi nella generazione e verifica iterativa di codice eseguibile, superando così i limiti della percezione basata sui pixel.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

Il paper introduce REAP, un metodo di pruning che supera le tecniche di fusione degli esperti per la compressione one-shot dei modelli MoE, preservando il controllo di routing e ottenendo prestazioni quasi senza perdite nelle attività generative.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan Thangarasa2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Il paper presenta RL-100, un framework di apprendimento per rinforzo nel mondo reale basato su politiche visuo-motorie a diffusione, che unifica imitazione e rinforzo per ottenere un controllo robotico ad alta frequenza, stabile e robusto, raggiungendo il 100% di successo in 1000 episodi su otto compiti diversi e dimostrando capacità di adattamento zero-shot e few-shot in scenari dinamici complessi.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Il lavoro presenta FALCON, un nuovo paradigma che colma il divario di ragionamento spaziale nei modelli Vision-Language-Action integrando token 3D ricchi di informazioni geometriche direttamente nel modulo di azione, ottenendo così prestazioni all'avanguardia su numerosi compiti reali e simulati senza richiedere sensori specializzati o modifiche architetturali.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Il paper presenta SynHLMA, un nuovo framework che genera sequenze di manipolazione delle mani per oggetti articolati basandosi su istruzioni linguistiche, utilizzando una rappresentazione discreta delle interazioni e un modello linguistico allineato per garantire grappi realistici e funzionali.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Il paper presenta GraphKeeper, un nuovo approccio per l'apprendimento incrementale di dominio sui grafi che risolve il problema dell'oblio catastrofico attraverso la svincolamento e la preservazione della conoscenza, ottenendo risultati all'avanguardia e integrandosi efficacemente con diversi modelli fondazionali per i grafi.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

Il paper propone metodi di ricalibrazione post-hoc basati su funzioni parametriche con regolarizzazione strutturata per gestire il trade-off bias-varianza nella calibrazione multiclasse, ottenendo prestazioni superiori rispetto alle tecniche esistenti e fornendo implementazioni open-source efficienti.

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis Bach2026-03-11🤖 cs.AI

← Precedente Successivo →