cs.CV articoli | Gist.Science

Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

Il paper propone un nuovo framework per la previsione open-vocabulary dell'occupazione 3D in ambienti interni basato su monocularità e supervisione geometrica, che utilizza Gaussiani 3D incorporati nel linguaggio e tecniche di stabilizzazione innovative per superare i limiti delle metodologie esistenti, ottenendo risultati superiori sul dataset Occ-ScanNet.

Changqing Zhou, Yueru Luo, Han Zhang + 2 more2026-02-27💻 cs

SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling

Il paper presenta SPMamba-YOLO, una rete innovativa per il rilevamento di oggetti subacquei che combina potenziamento delle caratteristiche multi-scala e modellazione del contesto globale tramite moduli SPPELAN, PSA e Mamba, ottenendo prestazioni superiori rispetto a YOLOv8n sul dataset URPC2022.

Guanghao Liao, Zhen Liu, Liyuan Cao + 2 more2026-02-27💻 cs

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Questo lavoro presenta ViCLIP-OT, il primo modello fondazionale visione-linguaggio ottimizzato per il recupero immagine-testo in vietnamita, che integra l'apprendimento contrastivo CLIP con una perdita di trasporto ottimale regolarizzata da grafi di similarità (SIGROT) per superare le limitazioni dei modelli esistenti e ottenere risultati superiori su benchmark locali e in setting zero-shot.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-02-27🤖 cs.AI

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

Il paper introduce SUPERGLASSES, il primo benchmark completo basato su dati reali per valutare i modelli visione-linguaggio nelle smart glasses, e propone SUPERLENS, un agente multimodale che supera le prestazioni di GPT-4o integrando rilevamento automatico degli oggetti e ricerca web potenziata.

Zhuohang Jiang, Xu Yuan, Haohao Qu + 4 more2026-02-27🤖 cs.AI

No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

Il paper presenta MoFit, un framework per l'inferenza di appartenenza ai dati di addestramento nei modelli di diffusione latente che, operando senza caption reali, supera i limiti dei metodi precedenti costruendo embedding sintetici ottimizzati sul modello per rilevare con alta precisione la memorizzazione delle immagini.

Joonsung Jeon, Woo Jae Kim, Suhyeon Ha + 2 more2026-02-27💻 cs

UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects

Il paper propone UFO-DETR, un framework di rilevamento end-to-end guidato dalla frequenza che integra una rete backbone LSKNet e moduli innovativi come DynFreq-C3 per migliorare l'efficienza e l'accuratezza nella rilevazione di oggetti di piccole dimensioni nelle immagini acquisite da droni.

Yuankai Chen, Kai Lin, Qihong Wu + 6 more2026-02-27💻 cs

SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs

Il paper presenta SoPE, un nuovo metodo di embedding posizionale basato su coordinate sferiche che supera i limiti della RoPE tradizionale per i modelli 3D LVLM preservando la struttura geometrica e migliorando la percezione spaziale attraverso la modellazione unificata di posizioni e angoli.

Guanting Ye, Qiyan Zhao, Wenhao Yu + 7 more2026-02-27🤖 cs.AI

IRSDE-Despeckle: A Physics-Grounded Diffusion Model for Generalizable Ultrasound Despeckling

Il paper presenta IRSDE-Despeckle, un modello di diffusione basato su equazioni differenziali stocastiche che, addestrato su dati simulati, rimuove efficacemente il rumore speckle dalle immagini ecografiche preservando i dettagli anatomici e fornendo una stima dell'incertezza per guidare l'affidabilità clinica.

Shuoqi Chen, Yujia Wu, Geoffrey P. Luke2026-02-27💻 cs

HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models

HulluEdit è un nuovo framework di intervento in un singolo passaggio che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala modificando selettivamente i sottospazi ortogonali delle conoscenze pregresse senza alterare le evidenze visive, ottenendo così risultati all'avanguardia nel mantenimento dell'accuratezza e dell'efficienza.

Yangguang Lin, Quan Fang, Yufei Li + 3 more2026-02-27💻 cs

Sapling-NeRF: Geo-Localised Sapling Reconstruction in Forests for Ecological Monitoring

Il paper presenta Sapling-NeRF, un sistema innovativo che fonde NeRF, SLAM LiDAR e GNSS per ricostruire sapini geo-localizzati con precisione centimetrica, superando i limiti delle tecnologie esistenti nel monitoraggio ecologico a lungo termine delle foreste.

Miguel Ángel Muñoz-Bañón, Nived Chebrolu, Sruthi M. Krishna Moorthy + 4 more2026-02-27💻 cs

Asymmetric Idiosyncrasies in Multimodal Models

Questo studio evidenzia come i modelli di captioning lascino impronte stilistiche distintive nel testo (rilevabili con il 99,70% di accuratezza) che però si perdono quasi completamente nelle immagini generate dai modelli text-to-image, rivelando un'asimmetria nella capacità di preservare dettagli, colori e distribuzioni spaziali.

Muzi Tao, Chufan Shi, Huijuan Wang + 2 more2026-02-27💻 cs

ProjFlow: Projection Sampling with Flow Matching for Zero-Shot Exact Spatial Motion Control

Il paper introduce ProjFlow, un campionatore senza addestramento che garantisce il soddisfacimento esatto di vincoli spaziali lineari nella generazione di movimenti umani mantenendo il realismo, grazie a una metrica cinematica consapevole della topologia scheletrica e a una formulazione temporale per l'interpolazione.

Akihisa Watanabe, Qing Yu, Edgar Simo-Serra + 1 more2026-02-27💻 cs

Beyond Detection: Multi-Scale Hidden-Code for Natural Image Deepfake Recovery and Factual Retrieval

Il paper propone un quadro unificato di recupero basato su codici nascosti multi-scala che, oltre al rilevamento, permette il ripristino e il recupero fattuale di immagini deepfake, validato attraverso il nuovo benchmark ImageNet-S.

Yuan-Chih Chen, Chun-Shien Lu2026-02-27💻 cs

TrajTok: Learning Trajectory Tokens enables better Video Understanding

Il paper presenta TrajTok, un tokenizzatore video end-to-end che genera dinamicamente token basati su traiettorie semantiche senza dipendere da pipeline di tracciamento esterne, migliorando significativamente l'efficienza e le prestazioni nei compiti di comprensione video, classificazione e ragionamento su video lunghi.

Chenhao Zheng, Jieyu Zhang, Jianing Zhang + 6 more2026-02-27💻 cs

SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation

Il paper introduce SceneTransporter, un framework end-to-end che utilizza l'ottimale trasporto entropico all'interno di un modello di diffusione latente compositivo per generare scene 3D strutturate e coerenti a partire da una singola immagine, risolvendo il problema dell'entanglement tra le istanze attraverso vincoli strutturali globali.

Ling Wang, Hao-Xiang Guo, Xinzhou Wang + 9 more2026-02-27💻 cs

Robust Human Trajectory Prediction via Self-Supervised Skeleton Representation Learning

Il paper propone un metodo robusto per la previsione delle traiettorie umane che, integrando un modello di rappresentazione scheletrica auto-supervisionato preaddestrato con masked autoencoding, migliora l'accuratezza e la resilienza in scenari con occlusioni e dati scheletrici mancanti.

Taishu Arashima, Hiroshi Kera, Kazuhiko Kawamoto2026-02-27💻 cs

GSTurb: Gaussian Splatting for Atmospheric Turbulence Mitigation

Il paper presenta GSTurb, un nuovo framework che combina correzione dell'inclinazione guidata dal flusso ottico e Gaussian Splatting per mitigare efficacemente la degradazione delle immagini causata dalla turbolenza atmosferica, ottenendo risultati superiori rispetto agli stati dell'arte sia su dataset sintetici che reali.

Hanliang Du, Zhangji Lu, Zewei Cai + 3 more2026-02-27💻 cs

Face Time Traveller : Travel Through Ages Without Losing Identity

Il paper presenta Face Time Traveller (FaceTT), un framework basato sulla diffusione che supera i limiti degli approcci esistenti per l'invecchiamento facciale, garantendo trasformazioni realistiche e controllabili che preservano fedelmente l'identità e lo sfondo attraverso strategie di prompt refinement, inversione senza tuning e controllo adattivo dell'attenzione.

Purbayan Kar, Ayush Ghadiya, Vishal Chudasama + 2 more2026-02-27💻 cs

CMSA-Net: Causal Multi-scale Aggregation with Adaptive Multi-source Reference for Video Polyp Segmentation

Il paper propone CMSA-Net, un framework innovativo per la segmentazione di polipi video che combina un modulo di aggregazione causale multi-scala e una strategia di riferimento multi-sorgente dinamica per superare le sfide di discriminazione semantica e variazione di scala, ottenendo prestazioni all'avanguardia sul dataset SUN-SEG.

Tong Wang, Yaolei Qi, Siwen Wang + 3 more2026-02-27💻 cs

Reflectance Multispectral Imaging for Soil Composition Estimation and USDA Texture Classification

Questo articolo presenta un sistema multispettrale a basso costo combinato con modelli di machine learning per la stima non distruttiva della composizione del suolo e la classificazione della tessitura USDA, ottenendo un'accuratezza superiore al 99% e un R² fino a 0,99, rendendolo adatto per applicazioni in agricoltura di precisione e ingegneria geotecnica.

G. A. S. L Ranasinghe, J. A. S. T. Jayakody, M. C. L. De Silva + 5 more2026-02-27⚡ eess

← Precedente Successivo →