cs.CV articoli | Gist.Science

FTSplat: Feed-forward Triangle Splatting Network

FTSplat è un framework feed-forward che genera istantaneamente superfici triangolari continue da immagini multi-vista, producendo modelli geometrici pronti per la simulazione senza richiedere ottimizzazione per scena.

Xiong Jinlin, Li Can, Shen Jiawei, Qi Zhigang, Sun Lei, Zhao Dongyang2026-03-09💻 cs

OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving

Il paper presenta OD-RASE, un framework basato su ontologie e modelli visivi linguistici su larga scala che mira a migliorare la sicurezza della guida autonoma identificando proattivamente le strutture stradali pericolose e generando proposte di miglioramento infrastrutturale.

Kota Shimomura, Masaki Nambata, Atsuya Ishikawa, Ryota Mimura, Takayuki Kawabuchi, Takayoshi Yamashita, Koki Inoue2026-03-09💻 cs

Facial Expression Recognition Using Residual Masking Network

Questo articolo propone una nuova Rete di Mascheramento Residuale che combina reti neurali residue e un'architettura simile a Unet per migliorare il riconoscimento delle espressioni facciali, ottenendo risultati all'avanguardia sui dataset FER2013 e VEMO.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

Il paper presenta SLER-IR, un framework innovativo per il ripristino delle immagini che utilizza un routing dinamico di esperti su livelli sferici e un'incorporazione uniforme delle degradazioni per superare le limitazioni dei metodi attuali e ottenere prestazioni superiori su diverse attività di restauro.

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

Adaptive Radial Projection on Fourier Magnitude Spectrum for Document Image Skew Estimation

Questo articolo presenta un nuovo metodo robusto per la stima della distorsione angolare nei documenti scansioni basato sulla proiezione radiale adattiva dello spettro di Fourier, accompagnato dalla creazione del dataset DISE-2021 e da un'analisi approfondita che dimostra la superiorità dell'approccio rispetto alle tecniche esistenti.

Luan Pham, Phu Hao Hoang, Xuan Toan Mai, Tuan Anh Tran2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

Il paper presenta LucidNFT, un framework di ottimizzazione basato su preferenze multi-reward per la super-risoluzione di immagini reali, che combina un nuovo valutatore di fedeltà (LucidConsistency), una strategia di normalizzazione degli vantaggi decouplata e un vasto dataset di degradazioni reali (LucidLR) per migliorare il compromesso tra qualità percettiva e fedeltà strutturale rispetto alle immagini a bassa risoluzione.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

Il paper presenta E-AdaPrune, un framework di pruning adattivo guidato dall'energia che ottimizza l'efficienza dei modelli visione-linguaggio allocando dinamicamente il budget dei token in base alla densità informativa delle immagini, ottenendo prestazioni superiori senza parametri aggiuntivi.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation

Il paper introduce VINE, un framework unificato per la segmentazione few-shot che combina un grafo spaziale-visivo per la coerenza strutturale e un prior discriminativo per ridurre l'ambiguità dello sfondo, generando prototipi di classe robusti che guidano il decoder SAM nella creazione di maschere accurate anche in presenza di variazioni di viewpoint e strutture complesse.

Hongli Liu, Yu Wang, Shengjie Zhao2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

Il paper presenta OVGGT, un framework di apprendimento profondo senza addestramento che garantisce inferenza streaming a costo costante e memoria limitata per la ricostruzione geometrica 3D da video illimitati, superando i limiti di memoria e precisione delle soluzioni esistenti grazie a tecniche di caching selettivo e protezione dinamica degli anchor.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Exploring Open-Vocabulary Object Recognition in Images using CLIP

Questo paper propone un nuovo framework per il riconoscimento di oggetti a vocabolario aperto basato su una strategia a due fasi che combina segmentazione e riconoscimento tramite CLIP o un metodo CNN/MLP, dimostrando che un'implementazione priva di addestramento e basata su CLIP supera gli stati dell'arte su dataset come COCO, Pascal VOC e ADE20K.

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Il paper introduce S2I (Skeleton-to-Image Encoding), un nuovo metodo che trasforma le sequenze scheletriche in dati simili a immagini per sfruttare modelli di visione pre-addestrati su larga scala, permettendo così un apprendimento di rappresentazione auto-supervisionato efficace e generalizzabile per l'analisi dello scheletro umano.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

Il paper propone CR-QAT, un framework di addestramento consapevole alla quantizzazione che combina un'ottimizzazione curriculare progressiva e distillazione di conoscenza relazionale basata sul testo per preservare l'allineamento visione-linguaggio e migliorare le prestazioni della rilevazione di oggetti open-vocabulary in configurazioni a bassa precisione.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

Il paper presenta PROBE, un descrittore di riconoscimento dei luoghi basato su LiDAR privo di apprendimento che utilizza una codifica probabilistica dell'occupazione BEV e un'analisi matematica delle traslazioni continue per ottenere una robustezza superiore e una generalizzazione cross-sensore senza necessità di tuning specifico per dataset.

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Il paper presenta ProCap, un nuovo framework che rivoluziona la descrizione dei cambiamenti (change captioning) passando dal confronto statico di coppie di immagini alla modellazione dinamica delle procedure di trasformazione, utilizzando un encoder addestrato su fotogrammi chiave intermedi e query apprendibili per generare descrizioni testuali che spiegano non solo cosa è cambiato, ma anche come è avvenuto.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

Il paper introduce DynUAV, un nuovo benchmark per il tracciamento multi-oggetto da prospettiva UAV che affronta le sfide poste da movimenti rapidi e condizioni avverse, superando i limiti delle valutazioni esistenti attraverso un dataset ricco di annotazioni e scenari dinamici complessi.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Questo lavoro presenta un nuovo framework a doppio ramo con regolarizzazione Gram e una rete di tagger specifica per l'anime che, minimizzando direttamente lo spostamento distributivo tra dati di addestramento e inferenza, raggiunge prestazioni all'avanguardia nella colorizzazione di schizzi ad alta risoluzione, garantendo maggiore qualità, risoluzione e controllabilità.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Questo lavoro presenta il primo studio sul trasferimento di politiche visione-linguaggio-azione (VLA) per la raccolta di fragole in serra, dimostrando che un sistema end-to-end basato su visione RGB e 3,71 ore di dati teleoperati in realtà virtuale può raggiungere un tasso di successo del 74,0% con un tasso di danneggiamento del 4,1%.

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Questo rapporto presenta un sistema di ispezione ottica automatizzata basato su architetture di deep learning (YOLOv8, ResNet-152 ed EfficientNet-b4) e un nuovo dataset di 4.414 immagini, sviluppato in collaborazione con leader dell'industria di Sialkot per rilevare difetti critici negli strumenti chirurgici pakistani e garantire la sicurezza dei pazienti.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

Il paper presenta MM-ISTS, un framework multimodale che sfrutta modelli linguistici visione-testo per migliorare le previsioni delle serie temporali a campionamento irregolare integrando dati temporali, visivi e testuali attraverso un meccanismo di codifica innovativo e un modulo di allineamento adattivo.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

Il paper introduce RePer-360, un framework di auto-modulazione che adatta modelli di profondità preaddestrati su immagini prospettiche al dominio panoramico a 360° preservando le conoscenze pregresse e utilizzando solo l'1% dei dati di addestramento, ottenendo così una significativa riduzione dell'errore RMSE rispetto ai metodi di fine-tuning standard.

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs

← Precedente Successivo →

cs.CV