LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

Il paper presenta LucidNFT, un framework di ottimizzazione basato su preferenze multi-reward per la super-risoluzione di immagini reali, che combina un nuovo valutatore di fedeltà (LucidConsistency), una strategia di normalizzazione degli vantaggi decouplata e un vasto dataset di degradazioni reali (LucidLR) per migliorare il compromesso tra qualità percettiva e fedeltà strutturale rispetto alle immagini a bassa risoluzione.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation

Il paper introduce VINE, un framework unificato per la segmentazione few-shot che combina un grafo spaziale-visivo per la coerenza strutturale e un prior discriminativo per ridurre l'ambiguità dello sfondo, generando prototipi di classe robusti che guidano il decoder SAM nella creazione di maschere accurate anche in presenza di variazioni di viewpoint e strutture complesse.

Hongli Liu, Yu Wang, Shengjie Zhao2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

Il paper presenta OVGGT, un framework di apprendimento profondo senza addestramento che garantisce inferenza streaming a costo costante e memoria limitata per la ricostruzione geometrica 3D da video illimitati, superando i limiti di memoria e precisione delle soluzioni esistenti grazie a tecniche di caching selettivo e protezione dinamica degli anchor.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Il paper introduce S2I (Skeleton-to-Image Encoding), un nuovo metodo che trasforma le sequenze scheletriche in dati simili a immagini per sfruttare modelli di visione pre-addestrati su larga scala, permettendo così un apprendimento di rappresentazione auto-supervisionato efficace e generalizzabile per l'analisi dello scheletro umano.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

Il paper propone CR-QAT, un framework di addestramento consapevole alla quantizzazione che combina un'ottimizzazione curriculare progressiva e distillazione di conoscenza relazionale basata sul testo per preservare l'allineamento visione-linguaggio e migliorare le prestazioni della rilevazione di oggetti open-vocabulary in configurazioni a bassa precisione.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

Il paper presenta PROBE, un descrittore di riconoscimento dei luoghi basato su LiDAR privo di apprendimento che utilizza una codifica probabilistica dell'occupazione BEV e un'analisi matematica delle traslazioni continue per ottenere una robustezza superiore e una generalizzazione cross-sensore senza necessità di tuning specifico per dataset.

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Il paper presenta ProCap, un nuovo framework che rivoluziona la descrizione dei cambiamenti (change captioning) passando dal confronto statico di coppie di immagini alla modellazione dinamica delle procedure di trasformazione, utilizzando un encoder addestrato su fotogrammi chiave intermedi e query apprendibili per generare descrizioni testuali che spiegano non solo cosa è cambiato, ma anche come è avvenuto.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

Il paper introduce DynUAV, un nuovo benchmark per il tracciamento multi-oggetto da prospettiva UAV che affronta le sfide poste da movimenti rapidi e condizioni avverse, superando i limiti delle valutazioni esistenti attraverso un dataset ricco di annotazioni e scenari dinamici complessi.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Questo lavoro presenta un nuovo framework a doppio ramo con regolarizzazione Gram e una rete di tagger specifica per l'anime che, minimizzando direttamente lo spostamento distributivo tra dati di addestramento e inferenza, raggiunge prestazioni all'avanguardia nella colorizzazione di schizzi ad alta risoluzione, garantendo maggiore qualità, risoluzione e controllabilità.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Questo rapporto presenta un sistema di ispezione ottica automatizzata basato su architetture di deep learning (YOLOv8, ResNet-152 ed EfficientNet-b4) e un nuovo dataset di 4.414 immagini, sviluppato in collaborazione con leader dell'industria di Sialkot per rilevare difetti critici negli strumenti chirurgici pakistani e garantire la sicurezza dei pazienti.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360^\circ Depth Estimation via Self-Modulation

Il paper introduce RePer-360, un framework di auto-modulazione che adatta modelli di profondità preaddestrati su immagini prospettiche al dominio panoramico a 360° preservando le conoscenze pregresse e utilizzando solo l'1% dei dati di addestramento, ottenendo così una significativa riduzione dell'errore RMSE rispetto ai metodi di fine-tuning standard.

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs