S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Il paper presenta S2DiT, un modello Transformer a diffusione ottimizzato per dispositivi mobili che, grazie a meccanismi di attenzione ibrida, una ricerca architetturale "a sandwich" e una distillazione avanzata, genera video in streaming ad alta fedeltà a oltre 10 FPS su iPhone con qualità paragonabile ai modelli server.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Il paper introduce ReViP, un nuovo framework per modelli Vision-Language-Action che mitiga il fenomeno delle "false completions" bilanciando segnali visivi e propriocettivi tramite cue visivi consapevoli dello stato di avanzamento, ottenendo risultati significativamente superiori rispetto alle basi di riferimento su benchmark specifici e in scenari reali.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Questo articolo presenta ScenePilot-Bench, un benchmark su larga scala basato su un dataset di 3.847 ore di video di guida, progettato per valutare le capacità dei modelli visione-linguaggio nella comprensione, percezione spaziale e pianificazione del movimento in scenari di guida autonoma.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Il paper propone QSTar, un nuovo metodo di interazione spaziale-temporale-frequenziale guidato dalla query che, integrando un blocco di ragionamento contestuale, migliora significativamente le prestazioni nella risposta a domande audio-visive sfruttando le caratteristiche del dominio frequenziale dell'audio e una comprensione più profonda del testo rispetto agli approcci esistenti.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Il paper introduce BioAgent Bench, una suite di valutazione e un dataset di benchmark per misurare le prestazioni e la robustezza degli agenti AI nelle attività di bioinformatica, evidenziando che, sebbene i modelli all'avanguardia possano completare pipeline complesse, mostrano vulnerabilità a perturbazioni controllate e che i modelli open-weight sono preferibili in contesti che richiedono rigorose garanzie di privacy.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

Il documento presenta R2M, un nuovo framework RLHF leggero che supera i limiti dei modelli di ricompensa tradizionali allineandoli in tempo reale alle distribuzioni delle policy in evoluzione tramite l'uso degli stati nascosti, mitigando così il problema dell'ottimizzazione eccessiva della ricompensa.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Questo studio valuta l'impatto dell'analisi del sentiment delle notizie tramite LLM (DeBERTa, RoBERTa e FinBERT) sulla previsione dei movimenti dei prezzi azionari, dimostrando che DeBERTa raggiunge il 75% di accuratezza, un modello ensemble arriva all'80% e le feature di sentiment offrono un lieve vantaggio a vari modelli di classificazione e regressione.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

Questo studio esplora come l'adozione di un approccio sensibile all'età nella progettazione di tecnologie interattive e di intelligenza artificiale permetta alle donne anziane cinesi in pensione di superare le barriere tecniche, trasformandosi da semplici esecutrici a co-creatrici consapevoli delle proprie performance di danza.

Danlin Zheng, Xiaoying Wei, Chao Liu, Quanyu Zhang, Jingling Zhang, Shihui Guo, Mingming Fan2026-03-10💻 cs

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Il paper presenta Green-VLA, un framework a cinque stadi che combina preaddestramento multimodale, adattamento specifico per diverse piattaforme robotiche e allineamento tramite apprendimento per rinforzo per abilitare un'unica politica generale sicura ed efficiente su robot umanoidi e manipolatori.

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs

Vulnerability-Amplifying Interaction Loops: a systematic failure mode in AI chatbot mental-health interactions

Il documento presenta SIM-VAIL, un quadro di valutazione che rivela come i chatbot di intelligenza artificiale possano involontariamente amplificare le vulnerabilità psicologiche degli utenti attraverso cicli di interazione dannosi, evidenziando la necessità di approcci di sicurezza multidimensionali e specifici per il contesto clinico.

Veith Weilnhammer, Kevin YC Hou, Lennart Luettgau, Christopher Summerfield, Raymond Dolan, Matthew M Nour2026-03-10💻 cs

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act

Il paper presenta AgenticLab, una piattaforma e un benchmark agnostici rispetto al modello che abilitano la valutazione di agenti robotici basati su modelli visione-linguaggio in ambienti reali e non strutturati, rivelando limiti critici nelle capacità di manipolazione a lungo termine che i test offline non riescono a cogliere.

Pengyuan Guo, Zhonghao Mai, Zhengtong Xu, Kaidi Zhang, Heng Zhang, Zichen Miao, Arash Ajoudani, Zachary Kingston, Qiang Qiu, Yu She2026-03-10💻 cs

Assessing Problem-Solving in HR Contexts: A Comparison Between Game-Based and Self-Report Measures

Questo studio dimostra che, sebbene non vi sia una significativa convergenza tra le valutazioni auto-riferite e quelle comportamentali basate su giochi per misurare la capacità di problem-solving, i due metodi forniscono informazioni complementari che giustificano l'integrazione di entrambi nei processi di selezione del personale.

Fabrizio Fornari, Eleonora Cova, Niccolò Vito Vacca, Francesco Bocci, Marcello Sarini, Luigi Caputo2026-03-10💻 cs

Beyond Judgment: Exploring Large Language Models as Non-Judgmental Support for Maternal Mental Health

Questo studio esplora come le madri utilizzino i modelli linguistici su larga scala come risorsa non giudicante per il supporto emotivo e la rassicurazione, evidenziando che, sebbene molte preferiscano ancora il calore umano, queste tecnologie offrono un'alternativa a basso rischio per evitare il giudizio sociale, specialmente in contesti familiari complessi.

Shayla Sharmin, Sadia Afrin Ratna2026-03-10💻 cs