Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

Il paper presenta R^4, un framework agenziale auto-migliorante che, attraverso le fasi di instradamento, recupero, riflessione e riparazione, potenzia significativamente l'accuratezza e la sicurezza dei modelli visione-linguaggio nell'analisi delle immagini mediche senza richiedere alcun fine-tuning basato su gradienti.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Questo studio rivela come il predittore LAION-Aesthetics, ampiamente utilizzato per addestrare modelli di generazione di immagini, perpetui pregiudizi culturali e di genere attraverso un "sguardo algoritmico" che privilegia canoni estetici occidentali e maschili, escludendo altre prospettive e richiedendo un passaggio verso valutazioni più pluralistiche.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Questo paper introduce un'architettura di sicurezza per gli agenti di uso informatico basata sulla pianificazione "single-shot" e sull'isolamento strutturale, che garantisce l'integrità del flusso di controllo contro gli attacchi di iniezione di prompt e di deviazione dei rami, permettendo di conciliare sicurezza rigorosa e utilità operativa senza compromettere le prestazioni.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

Il paper presenta BoxMind, un sistema AI a ciclo chiuso che trasforma i dati video non strutturati in strategie tattiche ottimizzate per il pugilato, validato con successo durante le Olimpiadi del 2024 dove ha contribuito al successo storico della squadra nazionale cinese.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Il paper presenta S2DiT, un modello Transformer a diffusione ottimizzato per dispositivi mobili che, grazie a meccanismi di attenzione ibrida, una ricerca architetturale "a sandwich" e una distillazione avanzata, genera video in streaming ad alta fedeltà a oltre 10 FPS su iPhone con qualità paragonabile ai modelli server.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Il paper introduce ReViP, un nuovo framework per modelli Vision-Language-Action che mitiga il fenomeno delle "false completions" bilanciando segnali visivi e propriocettivi tramite cue visivi consapevoli dello stato di avanzamento, ottenendo risultati significativamente superiori rispetto alle basi di riferimento su benchmark specifici e in scenari reali.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Questo articolo presenta ScenePilot-Bench, un benchmark su larga scala basato su un dataset di 3.847 ore di video di guida, progettato per valutare le capacità dei modelli visione-linguaggio nella comprensione, percezione spaziale e pianificazione del movimento in scenari di guida autonoma.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Il paper propone QSTar, un nuovo metodo di interazione spaziale-temporale-frequenziale guidato dalla query che, integrando un blocco di ragionamento contestuale, migliora significativamente le prestazioni nella risposta a domande audio-visive sfruttando le caratteristiche del dominio frequenziale dell'audio e una comprensione più profonda del testo rispetto agli approcci esistenti.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Il paper introduce BioAgent Bench, una suite di valutazione e un dataset di benchmark per misurare le prestazioni e la robustezza degli agenti AI nelle attività di bioinformatica, evidenziando che, sebbene i modelli all'avanguardia possano completare pipeline complesse, mostrano vulnerabilità a perturbazioni controllate e che i modelli open-weight sono preferibili in contesti che richiedono rigorose garanzie di privacy.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

Il documento presenta R2M, un nuovo framework RLHF leggero che supera i limiti dei modelli di ricompensa tradizionali allineandoli in tempo reale alle distribuzioni delle policy in evoluzione tramite l'uso degli stati nascosti, mitigando così il problema dell'ottimizzazione eccessiva della ricompensa.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Questo studio valuta l'impatto dell'analisi del sentiment delle notizie tramite LLM (DeBERTa, RoBERTa e FinBERT) sulla previsione dei movimenti dei prezzi azionari, dimostrando che DeBERTa raggiunge il 75% di accuratezza, un modello ensemble arriva all'80% e le feature di sentiment offrono un lieve vantaggio a vari modelli di classificazione e regressione.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

Questo studio esplora come l'adozione di un approccio sensibile all'età nella progettazione di tecnologie interattive e di intelligenza artificiale permetta alle donne anziane cinesi in pensione di superare le barriere tecniche, trasformandosi da semplici esecutrici a co-creatrici consapevoli delle proprie performance di danza.

Danlin Zheng, Xiaoying Wei, Chao Liu, Quanyu Zhang, Jingling Zhang, Shihui Guo, Mingming Fan2026-03-10💻 cs

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Il paper presenta Green-VLA, un framework a cinque stadi che combina preaddestramento multimodale, adattamento specifico per diverse piattaforme robotiche e allineamento tramite apprendimento per rinforzo per abilitare un'unica politica generale sicura ed efficiente su robot umanoidi e manipolatori.

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs