cs.AI articoli | Gist.Science

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Il paper introduce v-HUB, un nuovo benchmark per la comprensione dell'umorismo nei video basato su segnali visivi e sonori, dimostrando attraverso la valutazione di diversi modelli MLLM che l'integrazione dell'audio migliora significativamente le prestazioni in questo compito complesso.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

Latent Speech-Text Transformer

Il paper introduce il Latent Speech-Text Transformer (LST), un modello che migliora l'efficienza computazionale e le prestazioni di comprensione e generazione sia vocale che testuale aggregando i token vocali in patch latenti, riducendo così la lunghezza delle sequenze e bilanciando l'elaborazione tra le due modalità.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Il paper presenta AlphaApollo, un sistema di ragionamento agentic che affronta le limitazioni nella risoluzione di problemi complessi e nell'evoluzione affidabile dei modelli fondazione attraverso tre componenti chiave: ragionamento multi-turno, apprendimento multi-turno e evoluzione multi-round, dimostrando significativi miglioramenti delle prestazioni su vari benchmark matematici.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Il paper introduce NavSpace, un benchmark per valutare le capacità di percezione e ragionamento spaziale degli agenti di navigazione, e propone SNav, un nuovo modello che supera le prestazioni degli agenti esistenti sia sul benchmark che su robot reali.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

RECODE: Reasoning Through Code Generation for Visual Question Answering

Il paper presenta RECODE, un framework agentico che migliora il ragionamento visivo nei modelli multimodali trasformando l'analisi di grafici e diagrammi nella generazione e verifica iterativa di codice eseguibile, superando così i limiti della percezione basata sui pixel.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

Il paper introduce REAP, un metodo di pruning che supera le tecniche di fusione degli esperti per la compressione one-shot dei modelli MoE, preservando il controllo di routing e ottenendo prestazioni quasi senza perdite nelle attività generative.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan Thangarasa2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Il paper presenta RL-100, un framework di apprendimento per rinforzo nel mondo reale basato su politiche visuo-motorie a diffusione, che unifica imitazione e rinforzo per ottenere un controllo robotico ad alta frequenza, stabile e robusto, raggiungendo il 100% di successo in 1000 episodi su otto compiti diversi e dimostrando capacità di adattamento zero-shot e few-shot in scenari dinamici complessi.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Il lavoro presenta FALCON, un nuovo paradigma che colma il divario di ragionamento spaziale nei modelli Vision-Language-Action integrando token 3D ricchi di informazioni geometriche direttamente nel modulo di azione, ottenendo così prestazioni all'avanguardia su numerosi compiti reali e simulati senza richiedere sensori specializzati o modifiche architetturali.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Il paper presenta SynHLMA, un nuovo framework che genera sequenze di manipolazione delle mani per oggetti articolati basandosi su istruzioni linguistiche, utilizzando una rappresentazione discreta delle interazioni e un modello linguistico allineato per garantire grappi realistici e funzionali.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Il paper presenta GraphKeeper, un nuovo approccio per l'apprendimento incrementale di dominio sui grafi che risolve il problema dell'oblio catastrofico attraverso la svincolamento e la preservazione della conoscenza, ottenendo risultati all'avanguardia e integrandosi efficacemente con diversi modelli fondazionali per i grafi.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

Il paper propone metodi di ricalibrazione post-hoc basati su funzioni parametriche con regolarizzazione strutturata per gestire il trade-off bias-varianza nella calibrazione multiclasse, ottenendo prestazioni superiori rispetto alle tecniche esistenti e fornendo implementazioni open-source efficienti.

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis Bach2026-03-11🤖 cs.AI

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Questo lavoro introduce la "capacità informativa", una nuova metrica che valuta l'efficienza inferenziale dei grandi modelli linguistici basandosi sulle prestazioni di compressione del testo e sull'efficienza del tokenizer, rivelando al contempo bias linguistici e fornendo uno strumento per prevedere le prestazioni e ottimizzare lo scaling futuro.

Cheng Yuan, Jiawei Shao, Xuelong Li2026-03-11💬 cs.CL

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Il paper propone LTSV, un metodo leggero per la valutazione dei dati nelle serie temporali basato sui modelli fondazionali, che utilizza il fine-tuning in contesto e l'aggregazione di blocchi temporali per stimare in modo efficiente e preciso il contributo dei singoli campioni preservando le dipendenze temporali.

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong Ng2026-03-11🤖 cs.AI

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

Il paper introduce MediRound, un modello e un nuovo dataset (MR-MedSeg) per la segmentazione medica basata su ragionamento multi-round a livello di entità, che supera i limiti dei metodi tradizionali a dialogo singolo attraverso un meccanismo di giudizio e correzione per mitigare la propagazione degli errori.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu2026-03-11🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

Il paper presenta un metodo di classificazione basato sull'apprendimento in contesto con modelli fondazione per serie temporali (TSFM) che, senza necessità di riaddestramento, valuta lo stato di salute dei cuscinetti analizzando dati vibrazionali, aprendo la strada a sistemi di manutenzione predittiva scalabili e forniti come servizio.

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng Feng2026-03-11🤖 cs.AI

Research and Prototyping Study of an LLM-Based Chatbot for Electromagnetic Simulations

Questo studio presenta un chatbot basato sul modello linguistico Google Gemini 2.0 Flash che automatizza la generazione e la risoluzione di modelli di simulazione elettromagnetica bidimensionali tramite Gmsh e GetDP, riducendo significativamente i tempi di configurazione e offrendo funzionalità avanzate per la definizione di geometrie e post-processing.

Albert Piwonski, Mirsad Hadžiefendic2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Il paper propone l'Adaptive Diversity Cache (ADC), un modulo plug-and-play privo di addestramento che mitiga il bias a lunga coda nella rilevazione delle interazioni uomo-oggetto (HOI) accumulando rappresentazioni di feature diversificate e adattando dinamicamente la capacità di archiviazione per migliorare la rilevazione delle categorie rare senza richiedere ulteriore ottimizzazione.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Il paper propone un framework di apprendimento per rinforzo asincrono periodico che, separando l'inferenza dall'addestramento in un pipeline produttore-consumatore, accelera l'addestramento dei LLM mantenendo la correttezza on-policy e ottenendo un miglioramento del throughput fino a cinque volte rispetto ai framework esistenti.

Jian Lu2026-03-11🤖 cs.AI

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Il paper presenta UPA-RFAS, un framework unificato che genera patch fisiche universali e trasferibili per attaccare modelli Vision-Language-Action in scenari black-box, sfruttando obiettivi nello spazio delle feature, un processo min-max robusto e perdite specifiche per il dominio VLA per garantire il successo dell'attacco su diverse architetture e compiti.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

Multi-Agent Reinforcement Learning with Communication-Constrained Priors

Il paper propone un nuovo framework di apprendimento per rinforzo multi-agente che utilizza un modello generalizzato vincolato alle comunicazioni come prior di apprendimento per distinguere tra messaggi persi e integri, disaccoppiandone l'impatto decisionale e quantificandolo nella ricompensa globale per migliorare la cooperazione in scenari reali complessi.

Guang Yang, Tianpei Yang, Jingwen Qiao, Yanqing Wu, Jing Huo, Xingguo Chen, Yang Gao2026-03-11🤖 cs.AI

← Precedente Successivo →