cs.CV articoli | Gist.Science

Large Multimodal Models as General In-Context Classifiers

Questo lavoro dimostra che i Large Multimodal Models (LMM), se potenziati dal metodo training-free CIRCLE per l'apprendimento in contesto, possono superare i modelli contrastivi VLM nella classificazione sia a mondo chiuso che aperto, posizionandosi come classificatori unificati e flessibili.

Marco Garosi, Matteo Farina, Alessandro Conti + 2 more2026-02-27💻 cs

Skarimva: Skeleton-based Action Recognition is a Multi-view Application

Questo lavoro dimostra che l'utilizzo di più telecamere per triangolare scheletri 3D più accurati migliora significativamente il riconoscimento delle azioni basato su scheletri, suggerendo che la configurazione multi-vista dovrebbe diventare lo standard per future ricerche.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-02-27💻 cs

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

Il paper presenta GUIPruner, un framework senza addestramento che risolve le inefficienze degli agenti GUI ad alta risoluzione attraverso la ridimensionamento temporale adattivo e la potatura strutturata stratificata, riducendo drasticamente i costi computazionali mantenendo alte prestazioni.

Zhou Xu, Bowen Zhou, Qi Wang + 2 more2026-02-27🤖 cs.AI

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Il paper propone RaWMPC, un framework unificato che combina un modello del mondo addestrato su comportamenti rischiosi e un controllo predittivo per generare azioni di guida autonome sicure e generalizzabili senza dipendere da supervisione esperta.

Jiangxin Sun, Feng Xue, Teng Long + 4 more2026-02-27🤖 cs.AI

Decomposing Private Image Generation via Coarse-to-Fine Wavelet Modeling

Questo lavoro propone un framework di generazione di immagini con privacy differenziale che, sfruttando la trasformata wavelet, addestra un modello autoregressivo solo sui coefficienti a bassa frequenza (strutture globali) per preservare la privacy, mentre utilizza un modello di super-risoluzione preaddestrato pubblicamente per ricostruire i dettagli ad alta frequenza, ottenendo così un miglior compromesso tra qualità dell'immagine e protezione dei dati.

Jasmine Bayrooti, Weiwei Kong, Natalia Ponomareva + 3 more2026-02-27💻 cs

LineGraph2Road: Structural Graph Reasoning on Line Graphs for Road Network Extraction

Il paper presenta LineGraph2Road, un framework innovativo che migliora l'estrazione automatica delle strade da immagini satellitari trasformando il problema di previsione della connettività in una classificazione binaria su un grafo euclideo globale e applicando un Graph Transformer sul suo grafo delle linee per catturare dipendenze a lungo raggio e topologie complesse, ottenendo risultati all'avanguardia su metriche chiave come TOPO-F1 e APLS.

Zhengyang Wei, Renzhi Jing, Yiyi He + 1 more2026-02-27💻 cs

PGVMS: A Prompt-Guided Unified Framework for Virtual Multiplex IHC Staining with Pathological Semantic Learning

Il paper presenta PGVMS, un framework unificato guidato da prompt che risolve le sfide della colorazione IHC multiplex virtuale attraverso l'uso di un modello linguistico-visivo patologico, una strategia di apprendimento consapevole delle proteine e un apprendimento basato su prototipi coerenti per generare rappresentazioni IHC multiple da immagini H&E utilizzando solo dati di addestramento uniplex.

Fuqiang Chen, Ranran Zhang, Wanming Hu + 6 more2026-02-27💻 cs

Towards Long-Form Spatio-Temporal Video Grounding

Il paper propone ART-STVG, un nuovo approccio basato su un Transformer auto-regressivo con banche di memoria selettive e un design di localizzazione spaziotemporale a cascata, progettato per superare le limitazioni dei metodi esistenti nel localizzare oggetti in video a lungo termine (Long-Form STVG) gestendo efficacemente flussi di dati sequenziali e informazioni irrilevanti.

Xin Gu, Bing Fan, Jiali Yao + 5 more2026-02-27💻 cs

ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation

Il paper presenta ManifoldGD, un framework di distillazione dei dati basato su modelli di diffusione che, senza necessità di riaddestramento, migliora la qualità e la diversità dei dataset sintetici guidando il processo di generazione attraverso una proiezione geometrica su un manifold latente gerarchico derivato da clustering.

Ayush Roy, Wei-Yang Alex Lee, Rudrasis Chakraborty + 1 more2026-02-27🤖 cs.LG

PRIMA: Pre-training with Risk-integrated Image-Metadata Alignment for Medical Diagnosis via LLM

Il paper propone PRIMA, un framework innovativo che integra conoscenze mediche specifiche tramite RAG e un allineamento multimodale raffinato tra immagini e metadati clinici, superando i metodi esistenti nella diagnosi medica senza richiedere enormi risorse computazionali.

Yiqing Wang, Chunming He, Ming-Chen Lu + 4 more2026-02-27💻 cs

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Il paper propone un adattatore di test time basato sul retrieval che, integrando un piccolo insieme di immagini support con annotazioni a livello di pixel e prompt testuali, riduce significativamente il divario tra segmentazione zero-shot e supervisionata mantenendo la capacità di riconoscere categorie aperte.

Tilemachos Aravanis, Vladan Stojnić, Bill Psomas + 2 more2026-02-27💻 cs

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Lo studio dimostra che il pregiudizio di reporting nei dati di addestramento limita le capacità di ragionamento dei modelli visione-linguaggio, rendendo inefficace la semplice scalabilità e sottolineando la necessità di una curatela intenzionale dei dati per colmare le lacune nelle competenze spaziali, temporali, di negazione e di conteggio.

Amita Kamath, Jack Hessel, Khyathi Chandu + 3 more2026-02-27💬 cs.CL

Sensor Generalization for Adaptive Sensing in Event-based Object Detection via Joint Distribution Training

Questo articolo affronta le sfide legate alla variabilità dei dati delle telecamere a eventi, offrendo un'analisi approfondita dell'impatto dei parametri intrinseci sulle prestazioni dei modelli di rilevamento oggetti e proponendo un addestramento congiunto per garantire una robustezza agnostica rispetto al sensore.

Aheli Saha, René Schuster, Didier Stricker2026-02-27💻 cs

A Dataset is Worth 1 MB

Il paper propone PLADA, un metodo che riduce il carico di trasmissione dei dataset a meno di 1 MB inviando solo le etichette delle classi per immagini selezionate da un grande dataset di riferimento pre-caricato, eliminando così la necessità di trasmettere i dati grezzi pur mantenendo un'alta accuratezza nella classificazione.

Elad Kimchi Shoshani, Leeyam Gabay, Yedid Hoshen2026-02-27🤖 cs.LG

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Il paper presenta SeeThrough3D, un modello che migliora la generazione di immagini da testo controllata da layout 3D introducendo una rappresentazione scenica occlusiva trasparente (OSCR) e un meccanismo di attenzione mascherata per gestire con precisione le occlusioni tra oggetti, la geometria coerente e il controllo della camera.

Vaibhav Agrawal, Rishubh Parihar, Pradhaan Bhat + 2 more2026-02-27🤖 cs.AI

VGG-T $^3$ : Offline Feed-Forward 3D Reconstruction at Scale

Il paper presenta VGG-T³, un modello di ricostruzione 3D offline feed-forward scalabile che supera i limiti computazionali quadratici dei metodi esistenti distillando la rappresentazione geometrica in un MLP fisso tramite test-time training, ottenendo così un'elaborazione lineare rispetto al numero di immagini con velocità e precisione superiori.

Sven Elflein, Ruilong Li, Sérgio Agostinho + 4 more2026-02-27💻 cs

MediX-R1: Open Ended Medical Reinforcement Learning

Il paper introduce MediX-R1, un framework di apprendimento per rinforzo open-ended che, grazie a un sistema di ricompense composite e una valutazione basata su LLM, potenzia i modelli linguistici multimodali medici per generare risposte cliniche libere e semanticamente corrette, superando i limiti dei formati a scelta multipla.

Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed + 5 more2026-02-27💻 cs

Improving Denoising Diffusion Models via Simultaneous Estimation of Image and Noise

Questo paper propone un approccio innovativo per migliorare i modelli di diffusione denoising, basato sulla riparametrizzazione del processo tramite un angolo su un arco circolare per abilitare solutori ODE di ordine superiore e sulla stima simultanea dell'immagine e del rumore, ottenendo così una generazione più rapida e immagini di qualità superiore.

Zhenkai Zhang, Krista A. Ehinger, Tom Drummond2026-02-26🤖 cs.AI

Real-Time Motion Detection Using Dynamic Mode Decomposition

Questo lavoro propone un algoritmo interpretabile per il rilevamento di movimento in tempo reale nei flussi video, basato sulla Decomposizione Modale Dinamica (DMD) che associa il movimento in primo piano agli autovalori della matrice risultante dall'applicazione della DMD a segmenti video, dimostrando la sua efficacia su dati simulati di videosorveglianza.

Marco Mignacca, Simone Brugiapaglia, Jason J. Bramburger2026-02-26💻 cs

A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning

Questo articolo offre una rassegna completa sull'enhancement delle immagini subacquee basata sul deep learning, presentando modelli fisici, classificando gli algoritmi recenti, effettuando una valutazione comparativa quantitativa e qualitativa su più dataset e delineando le direzioni future della ricerca.

Xiaofeng Cong, Yu Zhao, Jie Gui + 2 more2026-02-26💻 cs

← Precedente Successivo →

cs.CV