cs.CV articoli | Gist.Science

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Il paper presenta Mantis, un nuovo modello Vision-Language-Action che introduce una previsione visiva svincolata (Disentangled Visual Foresight) per migliorare la comprensione e il ragionamento linguistico, ottenendo prestazioni superiori rispetto agli stati dell'arte sia su benchmark simulati che in scenari reali.

Yi Yang, Xueqi Li, Yiyang Chen + 7 more2026-02-24🤖 cs.AI

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

Il paper presenta GuideFlow, un innovativo framework di pianificazione per la guida autonoma end-to-end che utilizza il Flow Matching vincolato per generare traiettorie sicure, diversificate e controllabili, superando i limiti di collasso modale e di ottimizzazione post-generazione delle soluzioni precedenti e ottenendo risultati all'avanguardia sui principali benchmark.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

Il paper presenta LocateAnything3D, un approccio nativo per i modelli visione-linguaggio che risolve la rilevazione 3D di oggetti multipli formulandola come un problema di previsione del token successivo tramite una sequenza esplicita "Chain-of-Sight", ottenendo risultati all'avanguardia sul benchmark Omni3D e una forte capacità di generalizzazione zero-shot.

Yunze Man, Shihao Wang, Guowen Zhang + 7 more2026-02-24💻 cs

SelfAI: A self-directed framework for long-horizon scientific discovery

Il paper presenta SelfAI, un sistema multi-agente auto-diretto che automatizza la scoperta scientifica a lungo termine trasformando l'intento di ricerca in un processo decisionale strategico e adattivo, ottimizzando il compromesso tra efficienza e diversità per ridurre i tentativi ridondanti rispetto ai metodi tradizionali.

Xiao Wu, Ting-Zhu Huang, Liang-Jian Deng + 9 more2026-02-24🤖 cs.AI

Generative Neural Video Compression via Video Diffusion Prior

Il paper presenta GNVC-VD, il primo framework di compressione video neurale generativo basato su un modello fondazionale di generazione video (DiT), che unisce compressione latente spaziotemporale e raffinamento generativo a livello di sequenza per eliminare l'effetto flickering e migliorare la qualità percettiva anche a bitrate estremamente bassi.

Qi Mao, Hao Cheng, Tinghan Yang + 2 more2026-02-24💻 cs

MedDIFT: Multi-Scale Diffusion-Based Correspondence in 3D Medical Imaging

Il paper presenta MedDIFT, un framework di corrispondenza 3D privo di addestramento che sfrutta le rappresentazioni multi-scala di un modello di diffusione latente preaddestrato per ottenere un allineamento anatomico accurato nelle immagini mediche, superando i limiti dei metodi basati sulla similarità locale.

Xingyu Zhang, Anna Reithmeir, Fryderyk Kögl + 3 more2026-02-24💻 cs

CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Questo lavoro presenta CheXmask-U, un nuovo dataset su larga scala e un metodo ibrido per la stima dell'incertezza nella segmentazione anatomica basata su punti chiave delle radiografie toraciche, che migliora l'affidabilità e la sicurezza delle previsioni attraverso la quantificazione dell'incertezza latente e predittiva.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Il paper introduce MRD, un metodo che utilizza il rendering differenziabile basato sulla fisica per generare metameri di scena che attivano allo stesso modo i modelli di visione, permettendo così di analizzare la loro comprensione implicita delle proprietà 3D come forma e materiale.

Benjamin Beilharz, Thomas S. A. Wallis2026-02-24💻 cs

DL $^3$ M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

Il paper presenta DL³M, un framework che combina il modello ibrido MobileCoAtNet per la classificazione di immagini endoscopiche con grandi modelli linguistici per generare ragionamenti clinici strutturati, evidenziando come, sebbene una classificazione accurata migliori la qualità delle spiegazioni, gli attuali LLM rimangano ancora inaffidabili per le decisioni mediche ad alto rischio a causa della loro instabilità.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI

Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection

Il paper propone FALCON-SFOD, un framework per l'object detection senza sorgente che migliora l'attenzione agli oggetti nello spazio delle caratteristiche sfruttando i prior dei modelli fondazionali tramite regolarizzazione spaziale e un'etichettatura pseudo robusta al rumore, superando così i limiti degli approcci basati su Mean-Teacher.

Sairam VCR, Rishabh Lalla, Aveen Dayal + 4 more2026-02-24💻 cs

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

Il paper presenta REVEALER, un framework unificato che utilizza il ragionamento visivo guidato dal rinforzo per valutare con precisione e interpretabilità l'allineamento tra testo e immagine a livello di elementi, superando le prestazioni degli attuali metodi di valutazione.

Fulin Shi, Wenyi Xiao, Bin Chen + 2 more2026-02-24💻 cs

Object-WIPER : Training-Free Object and Associated Effect Removal in Videos

Il paper introduce Object-WIPER, un framework senza addestramento che rimuove oggetti dinamici e i loro effetti visivi dai video utilizzando un modello di diffusione pre-addestrato, garantendo un'inpainting coerente nel tempo e nello spazio senza necessità di riaddestramento.

Saksham Singh Kushwaha, Sayan Nag, Yapeng Tian + 1 more2026-02-24💻 cs

LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval

Il paper presenta LookBench, un benchmark aperto, dinamico e olistico per il recupero di immagini di moda in contesti e-commerce reali, che integra dati provenienti da siti web live e immagini generate dall'IA per valutare in modo robusto e aggiornato le prestazioni dei modelli di retrieval.

Gensmo. ai, Chao Gao, Siqiao Xue + 5 more2026-02-24💻 cs

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

Il paper introduce PyraTok, un tokenizzatore piramidale allineato al linguaggio che apprende latenti discreti strutturati semanticamente a più risoluzioni spaziotemporali, ottenendo prestazioni all'avanguardia nella ricostruzione, generazione e comprensione zero-shot dei video fino a risoluzioni 4K/8K.

Onkar Susladkar, Tushar Prakash, Adheesh Juvekar + 4 more2026-02-24🤖 cs.AI

Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding

Il paper presenta Emotion-LLaMAv2, un nuovo framework end-to-end con un'architettura di fusione avanzata e un curriculum di addestramento, insieme al benchmark MMEVerse, che aggrega e riannota 12 dataset emotivi per creare un set di dati su larga scala e standardizzato per il ragionamento e il riconoscimento delle emozioni multimodali.

Xiaojiang Peng, Jingyi Chen, Zebang Cheng + 11 more2026-02-24🤖 cs.AI

FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

Il paper presenta FineVAU, un nuovo benchmark per la comprensione delle anomalie video che introduce il dataset FineW3 e la metrica di valutazione FVScore, allineata alla percezione umana, per superare i limiti delle valutazioni attuali e rivelare le carenze dei modelli LVLM nell'analisi spaziale e temporale fine delle anomalie.

João Pereira, Vasco Lopes, João Neves + 1 more2026-02-24💻 cs

RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting

Il paper propone RepSFNet, un'architettura leggera e ad alte prestazioni per il conteggio delle folle che utilizza la riparametrizzazione strutturale e la fusione di caratteristiche per ottenere alta precisione e bassa latenza su dispositivi edge.

Mas Nurul Achmadiah, Chi-Chia Sun, Wen-Kai Kuo + 1 more2026-02-24💻 cs

Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Il paper propone DyMo, un nuovo framework di selezione dinamica delle modalità a tempo di inferenza che risolve il dilemma tra scarto e imputazione dei dati multimodali incompleti massimizzando le informazioni rilevanti per il compito tramite una funzione di ricompensa basata sulla perdita del task, ottenendo prestazioni superiori rispetto agli stati dell'arte su diversi dataset.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Cross-Modal Purification and Fusion for Small-Object RGB-D Transmission-Line Defect Detection

Il paper presenta CMAFNet, una rete di allineamento e fusione cross-modale che integra RGB e profondità attraverso un paradigma di purificazione e fusione per migliorare il rilevamento di difetti su piccole linee di trasmissione, ottenendo prestazioni superiori rispetto agli stati dell'arte su benchmark specifici.

Jiaming Cui, Wenqiang Li, Shuai Zhou + 2 more2026-02-24🤖 cs.AI

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Questo studio presenta un framework ibrido di registrazione e segmentazione per l'analisi di tumori epatici in regime di supervisione debole, dimostrando che, sebbene sia possibile trasferire etichette tra MRI e CT per anatomie visibili, la segmentazione di patologie "invisibili" nel CT rimane una sfida aperta a causa dell'assenza di caratteristiche discriminative.

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

← Precedente Successivo →

cs.CV