cs.CV articoli | Gist.Science

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Questo articolo presenta ScenePilot-Bench, un benchmark su larga scala basato su un dataset di 3.847 ore di video di guida, progettato per valutare le capacità dei modelli visione-linguaggio nella comprensione, percezione spaziale e pianificazione del movimento in scenari di guida autonoma.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Il paper propone QSTar, un nuovo metodo di interazione spaziale-temporale-frequenziale guidato dalla query che, integrando un blocco di ragionamento contestuale, migliora significativamente le prestazioni nella risposta a domande audio-visive sfruttando le caratteristiche del dominio frequenziale dell'audio e una comprensione più profonda del testo rispetto agli approcci esistenti.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

Il paper presenta MeanCache, un framework di caching senza addestramento che accelera l'inferenza del Flow Matching sostituendo la velocità istantanea con una velocità media derivata dai prodotti vettore-Jacobiano, ottenendo così un significativo aumento della velocità e una migliore qualità di generazione rispetto alle tecniche esistenti.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

Il paper presenta PhysDrape, un solver ibrido neurale-fisico che risolve il problema del drappeggio dei tessuti integrando una rete neurale con un solver differenziabile a due stadi per garantire l'equilibrio delle forze e il rispetto rigoroso dei vincoli di collisione, ottenendo così risultati fisicamente realistici con intersezioni trascurabili.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

Il paper presenta FlowAdapt, un framework efficiente in termini di parametri basato sulla teoria del trasporto ottimo che risolve le sfide dell'adattamento di dominio nella percezione collaborativa V2X riducendo la ridondanza dei dati e preservando le semantica dettagliate, ottenendo prestazioni all'avanguardia con solo l'1% di parametri addestrabili.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Il paper propone SToRM, un innovativo framework di riduzione supervisionata dei token per modelli linguistici multi-modali che, mediante un predittore di importanza, un addestramento supervisionato e un modulo di fusione contestuale, abilita sistemi di guida autonoma end-to-end efficienti riducendo i costi computazionali fino a 30 volte senza compromettere le prestazioni rispetto all'uso di tutti i token.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

Il paper presenta 3DMedAgent, un agente unificato che abilita modelli linguistici multimodali 2D all'analisi medica 3D attraverso la coordinazione di strumenti eterogenei e un ragionamento multi-step guidato da evidenze, superando i limiti delle architetture esistenti e ottenendo prestazioni superiori su oltre 40 compiti diagnostici.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

Il documento dimostra che le architetture che apprendono operatori equivarianti in uno spazio latente possono migliorare il riconoscimento di oggetti in trasformazioni simmetriche non viste durante l'addestramento, pur evidenziando le sfide legate alla loro scalabilità su dataset complessi.

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

Il paper presenta OVerSeeC, un framework zero-shot modulare che combina modelli linguistici e segmentazione open-vocabulary per generare mappe dei costi globali adattabili da immagini satellitari e istruzioni in linguaggio naturale, permettendo una pianificazione di percorsi autonoma e flessibile per missioni con requisiti variabili.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Questo lavoro introduce il nuovo setting di Open-Vocabulary Domain Generalization in Semantic Segmentation (OVDG-SS) per la guida autonoma, proponendo un benchmark e il metodo S2-Corr per migliorare la robustezza dei modelli di segmentazione sia su domini non visti che su categorie non viste, mitigando le distorsioni nelle correlazioni testo-immagine causate dai cambiamenti di dominio.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

Il paper presenta UniMatch, un framework innovativo che utilizza un approccio a due stadi basato su segmentazione semantica e guida linguistica per stabilire corrispondenze dense tra forme 3D non isometriche di categorie diverse, superando i limiti dei metodi precedenti.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

Il paper propone InfScene-SR, un metodo di super-risoluzione basato su modelli di diffusione che, grazie alle tecniche di fusione con correzione della varianza (VCF) e correzione spazialmente disaccoppiata (SDVC), permette di generare immagini ad alta risoluzione di dimensioni arbitrarie eliminando gli artefatti di confine e riducendo la complessità computazionale.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Il paper propone un metodo di decomposizione e ricomposizione online di oggetti, scene e pose della camera per generare dati di addestramento diversificati e migliorare l'efficienza dei modelli di rilevamento 3D monoculari, riducendo la dipendenza da grandi quantità di dati annotati.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Questo lavoro presenta un framework di decomposizione delle immagini basato su modelli di diffusione pre-addestrati e adattati tramite LoRA, che utilizza una strategia di tuning ciclicamente coerente e un processo di auto-miglioramento progressivo per separare con precisione elementi complessi come i loghi dalle loro superfici di sfondo, garantendo una ricostruzione fedele di entrambi gli strati.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Il paper presenta "See It, Say It, Sorted", un framework iterativo e privo di addestramento che riduce le allucinazioni visive e migliora il ragionamento nei modelli LVLM supervisionando ogni passo del ragionamento con evidenze visive dinamiche estratte dall'immagine.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Questo lavoro presenta un approccio unificato alla segmentazione semantica di immagini e video che utilizza il linguaggio modellato per generare maschere come sequenze di token discreti ottenuti tramite codifica RLE, integrando strategie di compressione e informazioni sulle istanze per raggiungere prestazioni competitive.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Il paper presenta WISER, un framework senza addestramento per il recupero di immagini composte zero-shot che supera i limiti dei metodi esistenti unendo la ricerca a doppio percorso (testo e immagine) con un meccanismo di verifica e raffinamento adattivo, ottenendo prestazioni superiori su diversi benchmark.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Il paper introduce PackUV, un nuovo metodo di rappresentazione 4D basato su Gaussian Splatting che mappa gli attributi volumetrici in atlanti UV strutturati per garantire coerenza temporale, compatibilità con i codec video standard e scalabilità, validato su un vasto dataset di 2 miliardi di frame.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Il paper propone HART, un framework di post-addestramento basato sul reinforcement learning che permette ai Large Multimodal Models di migliorare il ragionamento visivo ad alta risoluzione e la localizzazione delle regioni chiave senza richiedere annotazioni esterne.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Il paper introduce Infinite Self-Attention (InfSA) e la sua variante a complessità lineare Linear-InfSA, che riformulano l'attenzione come un processo di diffusione su grafi per superare i limiti computazionali quadratici, consentendo l'elaborazione di risoluzioni estremamente elevate (fino a 9216x9216) con migliori prestazioni, efficienza energetica e robustezza rispetto ai Transformer standard.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

← Precedente Successivo →