cs.CV articoli | Gist.Science

Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Il paper propone un nuovo framework semi-supervisionato per la rilevazione di anomalie video che sfrutta le descrizioni testuali di attività e interazioni generate da Modelli Linguistici Multimodali (MLLM) per migliorare sia l'efficacia nel rilevare anomalie complesse sia l'interpretabilità dei risultati.

Furkan Mumcu, Michael J. Jones, Anoop Cherian + 1 more2026-03-02💻 cs

From Volume Rendering to 3D Gaussian Splatting: Theory and Applications

Questo tutorial offre una panoramica completa sulla 3D Gaussian Splatting, illustrandone i principi teorici, le limitazioni attuali e le strategie di ottimizzazione, per poi esaminarne le applicazioni pratiche nella ricostruzione di superfici, nella modellazione di avatar e nella generazione di contenuti.

Vitor Pereira Matias, Daniel Perazzo, Vinicius Silva + 4 more2026-03-02💻 cs

Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation

Il paper propone "Speculative Verdict" (SV), un framework senza addestramento che combina piccoli modelli VLM come esperti di bozza per generare percorsi di ragionamento diversificati con un modello di verdetto forte che sintetizza le risposte, migliorando così l'accuratezza e l'efficienza nel ragionamento visivo su immagini ad alta densità informativa.

Yuhan Liu, Lianhui Qin, Shengjie Wang2026-03-02💬 cs.CL

TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

Il paper propone TokenCLIP, un framework di apprendimento adattivo a livello di token che risolve i limiti dell'allineamento indifferenziato nelle rilevazioni di anomalie zero-shot mappando dinamicamente ogni token visivo su sottospazi testuali ortogonali specifici tramite un problema di trasporto ottimo, migliorando così la capacità del modello di catturare semantica di anomalie fine-grained.

Qihang Zhou, Binbin Gao, Guansong Pang + 3 more2026-03-02💻 cs

MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection

Il paper presenta MMSD3.0, un nuovo benchmark composto esclusivamente da campioni multi-immagine per il rilevamento del sarcasmo multimodale, accompagnato dal modello CIRM che ottiene prestazioni all'avanguardia grazie a una modellazione incrociata delle immagini e a una fusione multimodale guidata dalla rilevanza.

Haochen Zhao, Yuyao Kong, Yongxiu Xu + 4 more2026-03-02💻 cs

Enhancing CLIP Robustness via Cross-Modality Alignment

Il paper propone COLA, un framework basato sul trasporto ottimo e privo di addestramento che migliora la robustezza dei modelli CLIP agli attacchi avversari allineando le rappresentazioni visive e testuali attraverso una proiezione sottomatrice e una regolarizzazione strutturale, ottenendo significativi guadagni di accuratezza su 14 benchmark senza compromettere le prestazioni su campioni puliti.

Xingyu Zhu, Beier Zhu, Shuo Wang + 2 more2026-03-02💻 cs

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

Questo lavoro propone l'Aggregazione Attenta delle Caratteristiche (AFA), un meccanismo di pooling leggero che permette alle politiche visuomotorie di ignorare le distrazioni visive e concentrarsi sui segnali rilevanti per il compito, migliorando significativamente la robustezza rispetto ai cambiamenti visivi senza richiedere costose aumentazioni dei dati o riaddestramento dei modelli pre-addestrati.

Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier + 4 more2026-03-02💻 cs

Score-Regularized Joint Sampling with Importance Weights for Flow Matching

Questo lavoro propone un framework di campionamento non IID per i modelli di Flow Matching che combina una regolarizzazione basata sul punteggio per garantire diversità e qualità dei campioni con una tecnica di ponderazione per importanza per ottenere stime non distorte delle aspettative.

Xinshuang Liu, Runfa Blark Li, Shaoxiu Wei + 1 more2026-03-02🤖 cs.AI

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

Questo studio dimostra che, per la classificazione dei tumori cerebrali in MRI con dati limitati, le architetture CNN pre-addestrate su dataset generali di grandi dimensioni (in particolare ConvNeXt-Tiny) superano le prestazioni di un modello pre-addestrato su dati medici specifici (RadImageNet DenseNet121), sfatando il mito che il pre-addestramento dominio-specifico garantisca sempre risultati migliori.

Helia Abedini, Saba Rahimi, Reza Vaziri2026-03-02🤖 cs.AI

Q-Save: Towards Scoring and Attribution for Generated Video Evaluation

Il paper introduce Q-Save, un benchmark olistico e un modello unificato che valutano simultaneamente la qualità visiva, dinamica e l'allineamento testo-video dei contenuti generati dall'IA, fornendo sia un punteggio di qualità che spiegazioni attributive dettagliate.

Xiele Wu, Zicheng Zhang, Mingtao Chen + 7 more2026-03-02💻 cs

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

Il paper presenta SocialNav, un modello fondazionale per la navigazione embodied socialmente consapevole che, grazie a un nuovo dataset su larga scala e a una pipeline di addestramento ibrida che combina apprendimento per imitazione con un innovativo framework di reinforcement learning (SAFE-GRPO), supera significativamente gli stati dell'arte sia in termini di successo nella navigazione che di conformità alle norme sociali.

Ziyi Chen, Yingnan Guo, Zedong Chu + 14 more2026-03-02🤖 cs.AI

Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

Il paper presenta SpecTemp, un framework di ragionamento temporale speculativo basato sul reinforcement learning che, attraverso una progettazione cooperativa a doppio modello e un nuovo dataset, risolve i colli di bottiglia di efficienza nell'interpretazione di video lunghi mantenendo un'alta accuratezza.

Pengfei Hu, Meng Cao, Yingyao Wang + 6 more2026-03-02💻 cs

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

Il paper propone TARDis, un innovativo framework consapevole della fisica che, disaccoppiando le componenti anatomiche statiche da quelle emodinamiche dinamiche, risolve efficacemente il problema della segmentazione e classificazione dei tumori in scansioni TC con fasi di contrasto incomplete, garantendo prestazioni diagnostiche robuste anche in scenari di dati estremamente scarsi.

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

Self-Supervised AI-Generated Image Detection: A Camera Metadata Perspective

Questo lavoro propone un metodo di rilevamento auto-supervisionato per immagini generate dall'IA che sfrutta i metadati EXIF delle fotocamere per apprendere caratteristiche intrinseche della fotografia digitale, ottenendo una generalizzazione superiore e una maggiore robustezza rispetto agli approcci esistenti.

Nan Zhong, Mian Zou, Yiran Xu + 4 more2026-03-02💻 cs

FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models

Il paper introduce FRIEDA, un benchmark progettato per valutare la capacità di ragionamento cartografico multi-step dei modelli visione-linguaggio, evidenziando attraverso l'analisi di undici modelli avanzati un significativo divario tra le prestazioni attuali e quelle umane nella comprensione delle relazioni spaziali complesse.

Jiyoon Pyo, Yuankun Jiao, Dongwon Jung + 11 more2026-03-02🤖 cs.AI

Sharp Monocular View Synthesis in Less Than a Second

Il paper presenta SHARP, un metodo che genera in meno di un secondo una rappresentazione 3D metrica fotorealistica da una singola immagine, consentendo la sintesi di nuove viste con prestazioni superiori allo stato dell'arte e una generalizzazione zero-shot.

Lars Mescheder, Wei Dong, Shiwei Li + 10 more2026-03-02🤖 cs.LG

Geometric-Photometric Event-based 3D Gaussian Ray Tracing

Questo lavoro propone un nuovo framework per la ricostruzione 3D basato su eventi che, decoupling il rendering geometrico e radiometrico tramite ray tracing, supera i compromessi tra accuratezza e risoluzione temporale ottenendo risultati all'avanguardia senza necessità di inizializzazioni preliminari.

Kai Kohyama, Yoshimitsu Aoki, Guillermo Gallego + 1 more2026-03-02🤖 cs.AI

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

Il paper presenta ColaVLA, un framework unificato visione-linguaggio-azione che supera le limitazioni dei pianificatori basati su VLM trasferendo il ragionamento cognitivo in uno spazio latente compatto e utilizzando un decoder gerarchico parallelo per generare traiettorie sicure ed efficienti in tempo reale, ottenendo risultati state-of-the-art sul benchmark nuScenes.

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

Inference-time Physics Alignment of Video Generative Models with Latent World Models

Questo lavoro introduce WMReward, un metodo di allineamento a tempo di inferenza che sfrutta i modelli latenti del mondo come reward per guidare la generazione video verso una maggiore coerenza fisica, ottenendo risultati all'avanguardia nel challenge PhysicsIQ di ICCV 2025.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich + 7 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

Il paper propone CPiRi, un framework innovativo per la previsione di serie temporali multivariata che, combinando un'architettura di decoupling spaziotemporale con una strategia di regolarizzazione per invarianza alla permutazione, supera i limiti dei modelli dipendenti o indipendenti dai canali garantendo prestazioni all'avanguardia, efficienza e una forte capacità di generalizzazione anche in scenari con riordinamento o aggiunta di canali senza necessità di riaddestramento.

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs

← Precedente Successivo →