cs articoli | Gist.Science

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Il paper presenta S2DiT, un modello Transformer a diffusione ottimizzato per dispositivi mobili che, grazie a meccanismi di attenzione ibrida, una ricerca architetturale "a sandwich" e una distillazione avanzata, genera video in streaming ad alta fedeltà a oltre 10 FPS su iPhone con qualità paragonabile ai modelli server.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

Equal-Pay Contracts

Questo studio analizza la progettazione di contratti a pagamento uguale per team di agenti, fornendo algoritmi di approssimazione e risultati di durezza per varie funzioni di ricompensa, risolvendo problemi aperti nel design dei contratti non vincolati e quantificando il costo dell'equità tramite il "prezzo dell'uguaglianza".

Michal Feldman, Yoav Gal-Tzur, Tomasz Ponitka, Maya Schlesinger2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Il paper introduce ReViP, un nuovo framework per modelli Vision-Language-Action che mitiga il fenomeno delle "false completions" bilanciando segnali visivi e propriocettivi tramite cue visivi consapevoli dello stato di avanzamento, ottenendo risultati significativamente superiori rispetto alle basi di riferimento su benchmark specifici e in scenari reali.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Questo articolo presenta ScenePilot-Bench, un benchmark su larga scala basato su un dataset di 3.847 ore di video di guida, progettato per valutare le capacità dei modelli visione-linguaggio nella comprensione, percezione spaziale e pianificazione del movimento in scenari di guida autonoma.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Il paper propone QSTar, un nuovo metodo di interazione spaziale-temporale-frequenziale guidato dalla query che, integrando un blocco di ragionamento contestuale, migliora significativamente le prestazioni nella risposta a domande audio-visive sfruttando le caratteristiche del dominio frequenziale dell'audio e una comprensione più profonda del testo rispetto agli approcci esistenti.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

Dynamic framework for edge-connectivity maintenance of simple graphs

Il paper presenta un framework dinamico che mantiene la k-connettività per archi in un grafo semplice non orientato tramite l'aggiunta o la rimozione di un numero limitato di archi, garantendo complessità temporali efficienti e mantenendo il grafo con $O(kn)$ archi.

Blazej Wrobel2026-03-10💻 cs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Il paper introduce BioAgent Bench, una suite di valutazione e un dataset di benchmark per misurare le prestazioni e la robustezza degli agenti AI nelle attività di bioinformatica, evidenziando che, sebbene i modelli all'avanguardia possano completare pipeline complesse, mostrano vulnerabilità a perturbazioni controllate e che i modelli open-weight sono preferibili in contesti che richiedono rigorose garanzie di privacy.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

Il documento presenta R2M, un nuovo framework RLHF leggero che supera i limiti dei modelli di ricompensa tradizionali allineandoli in tempo reale alle distribuzioni delle policy in evoluzione tramite l'uso degli stati nascosti, mitigando così il problema dell'ottimizzazione eccessiva della ricompensa.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Questo studio valuta l'impatto dell'analisi del sentiment delle notizie tramite LLM (DeBERTa, RoBERTa e FinBERT) sulla previsione dei movimenti dei prezzi azionari, dimostrando che DeBERTa raggiunge il 75% di accuratezza, un modello ensemble arriva all'80% e le feature di sentiment offrono un lieve vantaggio a vari modelli di classificazione e regressione.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

Questo studio esplora come l'adozione di un approccio sensibile all'età nella progettazione di tecnologie interattive e di intelligenza artificiale permetta alle donne anziane cinesi in pensione di superare le barriere tecniche, trasformandosi da semplici esecutrici a co-creatrici consapevoli delle proprie performance di danza.

Danlin Zheng, Xiaoying Wei, Chao Liu, Quanyu Zhang, Jingling Zhang, Shihui Guo, Mingming Fan2026-03-10💻 cs

Cognitive-Flexible Control via Latent Model Reorganization with Predictive Safety Guarantees

Questa lettera propone un framework di controllo cognitivamente flessibile che adatta online le rappresentazioni latenti tramite un modello DeepSSSM e garantisce la sicurezza attraverso un controllo predittivo bayesiano, assicurando stabilità e recupero delle prestazioni in sistemi cyber-fisici non stazionari soggetti a cambiamenti improvvisi.

Thanana Nuchkrua, Sudchai Boonto2026-03-10💻 cs

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Il paper presenta Green-VLA, un framework a cinque stadi che combina preaddestramento multimodale, adattamento specifico per diverse piattaforme robotiche e allineamento tramite apprendimento per rinforzo per abilitare un'unica politica generale sicura ed efficiente su robot umanoidi e manipolatori.

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs

Vulnerability-Amplifying Interaction Loops: a systematic failure mode in AI chatbot mental-health interactions

Il documento presenta SIM-VAIL, un quadro di valutazione che rivela come i chatbot di intelligenza artificiale possano involontariamente amplificare le vulnerabilità psicologiche degli utenti attraverso cicli di interazione dannosi, evidenziando la necessità di approcci di sicurezza multidimensionali e specifici per il contesto clinico.

Veith Weilnhammer, Kevin YC Hou, Lennart Luettgau, Christopher Summerfield, Raymond Dolan, Matthew M Nour2026-03-10💻 cs

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act

Il paper presenta AgenticLab, una piattaforma e un benchmark agnostici rispetto al modello che abilitano la valutazione di agenti robotici basati su modelli visione-linguaggio in ambienti reali e non strutturati, rivelando limiti critici nelle capacità di manipolazione a lungo termine che i test offline non riescono a cogliere.

Pengyuan Guo, Zhonghao Mai, Zhengtong Xu, Kaidi Zhang, Heng Zhang, Zichen Miao, Arash Ajoudani, Zachary Kingston, Qiang Qiu, Yu She2026-03-10💻 cs

Six Times to Spare: Characterizing GPU-Accelerated 5G LDPC Decoding for Edge-RSU Communications

Questo articolo dimostra che l'offloading su GPU per la decodifica LDPC nelle comunicazioni 5G URLLC aumenta significativamente l'efficienza e riduce la latenza, rendendo fattibile il rispetto dei vincoli temporali e di potenza nelle unità stradali (RSU) al bordo della rete.

Ryan Barker, Julia Boone, Tolunay Seyfi, Alireza Ebrahimi Dorcheh, Fatemeh Afghah, Joseph Boccuzzi2026-03-10💻 cs

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Questo studio introduce FSTab, un metodo per identificare e valutare le vulnerabilità ricorrenti nei software generati da LLM tramite un attacco in black-box che prevede le falle nel backend basandosi sulle funzionalità frontend, rivelando così rischi di sicurezza significativi e trasferibili tra diversi domini applicativi.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson2026-03-10💻 cs

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

Il paper propone LMMRec, un framework agnostico che utilizza i Large Language Models per estrarre e allineare motivazioni utente e item da dati testuali e di interazione, migliorando significativamente le prestazioni dei sistemi di raccomandazione multimodali.

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu2026-03-10💻 cs

Assessing Problem-Solving in HR Contexts: A Comparison Between Game-Based and Self-Report Measures

Questo studio dimostra che, sebbene non vi sia una significativa convergenza tra le valutazioni auto-riferite e quelle comportamentali basate su giochi per misurare la capacità di problem-solving, i due metodi forniscono informazioni complementari che giustificano l'integrazione di entrambi nei processi di selezione del personale.

Fabrizio Fornari, Eleonora Cova, Niccolò Vito Vacca, Francesco Bocci, Marcello Sarini, Luigi Caputo2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Questo lavoro propone un quadro teorico e pratico per la generazione condizionata tramite modelli di diffusione sotto vincoli rigidi, basato sulla trasformata h di Doob e su algoritmi di apprendimento off-policy che garantiscono il rispetto dei vincoli con probabilità uno senza modificare la rete di score preaddestrata.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

Beyond Judgment: Exploring Large Language Models as Non-Judgmental Support for Maternal Mental Health

Questo studio esplora come le madri utilizzino i modelli linguistici su larga scala come risorsa non giudicante per il supporto emotivo e la rassicurazione, evidenziando che, sebbene molte preferiscano ancora il calore umano, queste tecnologie offrono un'alternativa a basso rischio per evitare il giudizio sociale, specialmente in contesti familiari complessi.

Shayla Sharmin, Sadia Afrin Ratna2026-03-10💻 cs

← Precedente Successivo →