cs.CV articoli | Gist.Science

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Il paper presenta 3D-RFT, il primo framework che estende il Reinforcement Learning con ricompense verificabili (RLVR) alla comprensione delle scene 3D basata su video, ottimizzando direttamente le metriche di valutazione attraverso un processo di fine-tuning ibrido SFT e GRPO per ottenere prestazioni state-of-the-art superiori a modelli più grandi.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Il paper presenta VideoHV-Agent, un framework multi-agente che rivoluziona la comprensione dei video lunghi sostituendo la ricerca reattiva con un processo strutturato di formulazione e verifica delle ipotesi, ottenendo così risultati all'avanguardia in termini di accuratezza, interpretabilità ed efficienza computazionale.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

Il paper introduce Wallaroo, un modello autoregressivo basato sulla previsione del prossimo token che unifica comprensione, generazione e modifica multimodale con supporto multilingue e multirisoluzione, ottenendo prestazioni competitive rispetto ad altri modelli unificati.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Il paper introduce TAPFormer, un framework basato su transformer che utilizza una fusione temporale asincrona transitoria per unire in modo robusto flussi di eventi e fotogrammi RGB, permettendo un tracciamento di punti arbitrari ad alta precisione anche in condizioni di illuminazione scarsa o movimento rapido.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

Il paper presenta MultiGO++, un nuovo framework per la ricostruzione 3D di umani vestiti da una singola immagine che supera i limiti delle metodologie esistenti attraverso una collaborazione sistematica tra geometria e texture, realizzata tramite sintesi multi-sorgente, estrazione di forma consapevole delle regioni e una rete di ricostruzione duale.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

Il paper presenta Lens2Zernike, un framework di deep learning basato su principi fisici che recupera in modo cieco i parametri ottici da singole immagini sfocate per abilitare una deconvoluzione stabile e il ripristino di dettagli diffrazione-limitati nelle fotocamere mobili.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Questo studio presenta un'analisi su larga scala delle capacità e dei limiti della Restaurazione Immagini Generativa, rivelando un cambiamento di paradigma dalla scarsità di dettagli verso la necessità di controllarne la qualità e il significato semantico, e proponendo un nuovo modello di valutazione della qualità dell'immagine allineato al giudizio umano.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

Il paper presenta Tell2Adapt, un innovativo framework unificato per l'adattamento di dominio non supervisionato senza sorgente in ambito medico che sfrutta un Modello Fondamentale Visivo per generare pseudo-etichette di alta qualità e garantire affidabilità clinica attraverso la regolarizzazione dei prompt e la raffinazione della plausibilità visiva, superando gli approcci esistenti su un vasto set di target anatomici.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

Questo articolo presenta Semap, un nuovo dataset di riferimento, e un framework di segmentazione multiscale che, combinando sintesi procedurale dei dati e integrazione multiscala, dimostra come sia possibile ottenere modelli di riconoscimento semantico generalizzabili e robusti per collezioni di mappe storiche eterogenee, superando i limiti degli approcci attuali focalizzati su serie omogenee.

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Il paper propone IRTTA, un metodo di adattamento a tempo di test che sfrutta le ricostruzioni intermedie nella tomografia a coerenza ottica per migliorare le prestazioni di segmentazione medica e fornire stime di incertezza senza modificare i modelli esistenti.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

Il paper presenta CoIn3D, un framework generalizzabile per il rilevamento 3D di oggetti multi-camera che supera le difficoltà di trasferimento tra configurazioni diverse integrando esplicitamente le discrepanze degli prior spaziali attraverso la modulazione delle feature sensibile allo spazio e l'aumento dei dati orientato alla camera.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

CLIP-driven Zero-shot Learning with Ambiguous Labels

Il paper propone CLIP-PZSL, un nuovo framework di apprendimento zero-shot che utilizza CLIP e una strategia di perdita parziale per gestire le etichette ambigue, migliorando progressivamente l'allineamento semantico tra istanze ed etichette per riconoscere classi non viste.

Jinfu Fan, Jiangnan Li, Xiaowen Yan + 3 more2026-03-06💻 cs

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Questo studio presenta un sistema avanzato di rilevamento delle luci blu di emergenza basato su quattro telecamere fisheye e un modello RT-DETR potenziato da un blocco di attenzione al colore, che utilizza il dataset ABLDataset per ottenere un'accuratezza del 94,7% e supportare la sicurezza stradale attraverso l'integrazione in sistemi ADAS multimodali.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

Il paper presenta MI-DETR, un innovativo rilevatore bio-ispirato per piccoli target infrarossi in movimento che integra mappe di movimento derivate da un automa cellulare simile alla retina con pathway di aspetto paralleli, ottenendo prestazioni eccezionali su diversi benchmark senza richiedere supervisione aggiuntiva per il movimento o moduli di allineamento espliciti.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Questo paper introduce UniM, il primo benchmark unificato per l'apprendimento multimodale "any-to-any" che valuta la capacità dei modelli di comprendere e generare input e output intercalati e arbitrari attraverso sette modalità diverse, accompagnato da una suite di valutazione e un modello baseline chiamato UniMA.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

Il paper presenta MoRe, una rete feed-forward efficiente basata su un trasformatore che ricostruisce scene 4D dinamiche da video monoculare disaccoppiando il movimento dagli oggetti statici tramite una strategia di attenzione forzata e meccanismi causali raggruppati, superando i limiti computazionali dei metodi di ottimizzazione esistenti.

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

Il paper propone un nuovo framework per la generazione 4D che supera la carenza di dataset di grandi dimensioni trasferendo prior spaziali e temporali da modelli di diffusione esistenti attraverso un meccanismo di trasferimento distribuzionale ortogonale e una rappresentazione HexPlane spazialmente e temporalmente consapevole.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Questo lavoro propone un nuovo metodo di attribuzione Shapley basato su flussi generativi ottimali che, minimizzando l'energia cinetica lungo geodetiche di Wasserstein-2, garantisce attribuzioni coerenti con la varietà dei dati, risolvendo i problemi di deriva geometrica e offrendo stabilità teorica rispetto agli approcci esistenti.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Il paper propone GEM-TFL, un framework innovativo che colma il divario tra supervisione debole e completa per la localizzazione temporale di falsificazioni, integrando decomposizione guidata da EM, affinamento temporale senza training e un modulo di raffinamento basato su grafi per ottenere risultati più accurati e robusti.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

Il paper introduce Diff-ES, un framework di pruning strutturato per modelli di diffusione che utilizza una ricerca evolutiva per ottimizzare automaticamente i programmi di sparsità per fasi e un routing efficiente dei pesi, ottenendo accelerazioni reali senza duplicare i parametri e preservando la qualità delle immagini.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

← Precedente Successivo →