cs.CV articoli | Gist.Science

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

Il paper propone un framework efficiente per la super-risoluzione delle immagini MRI basato su un modello ibrido di stato spaziale selettivo (MHSSM) e MLP, che supera i metodi esistenti in accuratezza e dettaglio anatomico riducendo drasticamente i parametri e il carico computazionale.

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Il paper presenta DrivingGen, il primo benchmark completo per i modelli di mondo generativi nella guida autonoma, che combina un dataset diversificato e nuove metriche per valutare realisticamente la coerenza temporale, la plausibilità delle traiettorie e il controllo, colmando le lacune delle valutazioni attuali e guidando lo sviluppo di simulatori affidabili.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Questo lavoro presenta un framework vision-language leggero e spiegabile basato su Swin Transformer e T5, che utilizza una strategia di addestramento in due fasi per ottenere prestazioni quasi perfette nell'identificazione e nella spiegazione delle malattie delle colture attraverso il Visual Question Answering.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

Il paper presenta R^4, un framework agenziale auto-migliorante che, attraverso le fasi di instradamento, recupero, riflessione e riparazione, potenzia significativamente l'accuratezza e la sicurezza dei modelli visione-linguaggio nell'analisi delle immagini mediche senza richiedere alcun fine-tuning basato su gradienti.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Questo studio rivela come il predittore LAION-Aesthetics, ampiamente utilizzato per addestrare modelli di generazione di immagini, perpetui pregiudizi culturali e di genere attraverso un "sguardo algoritmico" che privilegia canoni estetici occidentali e maschili, escludendo altre prospettive e richiedendo un passaggio verso valutazioni più pluralistiche.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Il paper presenta S2DiT, un modello Transformer a diffusione ottimizzato per dispositivi mobili che, grazie a meccanismi di attenzione ibrida, una ricerca architetturale "a sandwich" e una distillazione avanzata, genera video in streaming ad alta fedeltà a oltre 10 FPS su iPhone con qualità paragonabile ai modelli server.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Il paper introduce ReViP, un nuovo framework per modelli Vision-Language-Action che mitiga il fenomeno delle "false completions" bilanciando segnali visivi e propriocettivi tramite cue visivi consapevoli dello stato di avanzamento, ottenendo risultati significativamente superiori rispetto alle basi di riferimento su benchmark specifici e in scenari reali.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Questo articolo presenta ScenePilot-Bench, un benchmark su larga scala basato su un dataset di 3.847 ore di video di guida, progettato per valutare le capacità dei modelli visione-linguaggio nella comprensione, percezione spaziale e pianificazione del movimento in scenari di guida autonoma.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Il paper propone QSTar, un nuovo metodo di interazione spaziale-temporale-frequenziale guidato dalla query che, integrando un blocco di ragionamento contestuale, migliora significativamente le prestazioni nella risposta a domande audio-visive sfruttando le caratteristiche del dominio frequenziale dell'audio e una comprensione più profonda del testo rispetto agli approcci esistenti.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

Il paper presenta MeanCache, un framework di caching senza addestramento che accelera l'inferenza del Flow Matching sostituendo la velocità istantanea con una velocità media derivata dai prodotti vettore-Jacobiano, ottenendo così un significativo aumento della velocità e una migliore qualità di generazione rispetto alle tecniche esistenti.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

Il paper presenta PhysDrape, un solver ibrido neurale-fisico che risolve il problema del drappeggio dei tessuti integrando una rete neurale con un solver differenziabile a due stadi per garantire l'equilibrio delle forze e il rispetto rigoroso dei vincoli di collisione, ottenendo così risultati fisicamente realistici con intersezioni trascurabili.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

Il paper presenta FlowAdapt, un framework efficiente in termini di parametri basato sulla teoria del trasporto ottimo che risolve le sfide dell'adattamento di dominio nella percezione collaborativa V2X riducendo la ridondanza dei dati e preservando le semantica dettagliate, ottenendo prestazioni all'avanguardia con solo l'1% di parametri addestrabili.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Il paper propone SToRM, un innovativo framework di riduzione supervisionata dei token per modelli linguistici multi-modali che, mediante un predittore di importanza, un addestramento supervisionato e un modulo di fusione contestuale, abilita sistemi di guida autonoma end-to-end efficienti riducendo i costi computazionali fino a 30 volte senza compromettere le prestazioni rispetto all'uso di tutti i token.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

Il paper presenta 3DMedAgent, un agente unificato che abilita modelli linguistici multimodali 2D all'analisi medica 3D attraverso la coordinazione di strumenti eterogenei e un ragionamento multi-step guidato da evidenze, superando i limiti delle architetture esistenti e ottenendo prestazioni superiori su oltre 40 compiti diagnostici.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

Il documento dimostra che le architetture che apprendono operatori equivarianti in uno spazio latente possono migliorare il riconoscimento di oggetti in trasformazioni simmetriche non viste durante l'addestramento, pur evidenziando le sfide legate alla loro scalabilità su dataset complessi.

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

Il paper presenta OVerSeeC, un framework zero-shot modulare che combina modelli linguistici e segmentazione open-vocabulary per generare mappe dei costi globali adattabili da immagini satellitari e istruzioni in linguaggio naturale, permettendo una pianificazione di percorsi autonoma e flessibile per missioni con requisiti variabili.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Questo lavoro introduce il nuovo setting di Open-Vocabulary Domain Generalization in Semantic Segmentation (OVDG-SS) per la guida autonoma, proponendo un benchmark e il metodo S2-Corr per migliorare la robustezza dei modelli di segmentazione sia su domini non visti che su categorie non viste, mitigando le distorsioni nelle correlazioni testo-immagine causate dai cambiamenti di dominio.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

Il paper presenta UniMatch, un framework innovativo che utilizza un approccio a due stadi basato su segmentazione semantica e guida linguistica per stabilire corrispondenze dense tra forme 3D non isometriche di categorie diverse, superando i limiti dei metodi precedenti.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

Il paper propone InfScene-SR, un metodo di super-risoluzione basato su modelli di diffusione che, grazie alle tecniche di fusione con correzione della varianza (VCF) e correzione spazialmente disaccoppiata (SDVC), permette di generare immagini ad alta risoluzione di dimensioni arbitrarie eliminando gli artefatti di confine e riducendo la complessità computazionale.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Il paper propone un metodo di decomposizione e ricomposizione online di oggetti, scene e pose della camera per generare dati di addestramento diversificati e migliorare l'efficienza dei modelli di rilevamento 3D monoculari, riducendo la dipendenza da grandi quantità di dati annotati.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

← Precedente Successivo →