cs.CV articoli | Gist.Science

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Lo studio dimostra che, per la stima della biomassa dei pascoli su dati agricoli scarsi, l'aggiornamento dei modelli di base (backbone) e l'uso di semplici moduli di fusione locali superano le complesse architetture di attenzione e SSM, rivelando il principio dell'"inversione della complessità di fusione".

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

Il paper propone un nuovo framework di transfer learning basato su ottimizzazione bi-livello che combina un estrattore di caratteristiche universale addestrato su dati eterogenei con un adattatore specifico per dominio, permettendo una ricostruzione di immagini MRI sottocampionate di alta qualità anche in presenza di dati di training limitati.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

Il paper presenta GazeShift, un framework non supervisionato per la stima dello sguardo in realtà virtuale che, sfruttando il nuovo dataset su larga scala VRGaze, raggiunge prestazioni in tempo reale con alta precisione e senza bisogno di dati etichettati.

Gil Shapira, Ishay Goldin, Evgeny Artyomov, Donghoon Kim, Yosi Keller, Niv Zehngut2026-03-10💻 cs

Training-free Temporal Object Tracking in Surgical Videos

Questo lavoro presenta un metodo innovativo e privo di addestramento per il tracciamento temporale di oggetti nei video chirurgici laparoscopici, che sfrutta le capacità di localizzazione dei modelli di diffusione pre-addestrati per ottenere prestazioni superiori nel rilevamento di strutture anatomiche e strumenti senza richiedere costose annotazioni pixel-level.

Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo2026-03-10💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver è il primo sistema di serving training-free e agnostico rispetto al modello che accelera la generazione di audio da testo tramite modelli di diffusione, riducendo la latenza fino a 3 volte riutilizzando audio cached semanticamente simili senza comprometterne la qualità.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai2026-03-10💻 cs

Toward Unified Multimodal Representation Learning for Autonomous Driving

Questo articolo propone il framework CTP (Contrastive Tensor Pre-training), che supera i limiti dell'allineamento a coppie delle modalità sostituendo la similarità coseno con un tensore di similarità multimodale per ottenere un allineamento unificato e coerente di testo, immagini e nuvole di punti, migliorando così le prestazioni dei sistemi di guida autonoma.

Ximeng Tao, Dimitar Filev, Gaurav Pandey2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Il paper introduce VLM-SubtleBench, un nuovo benchmark progettato per valutare la capacità dei modelli visione-linguaggio di distinguere sottili differenze visive in ambiti diversificati come quello medico e industriale, rivelando un significativo divario tra le prestazioni attuali dei modelli e quelle umane.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Structure and Progress Aware Diffusion for Medical Image Segmentation

Il paper propone SPAD, un metodo di diffusione consapevole della struttura e del progresso per la segmentazione di immagini mediche che, attraverso un programma di schedulazione adattivo, apprende prima le strutture morfologiche e semantiche globali e successivamente affina i confini dettagliati, superando le limitazioni delle supervisioni precoci sui bordi ambigui.

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

Il paper propone l'segmentazione delle immagini come banco di prova visivo per la formazione di coalizioni nei giochi edonici, dimostrando come un parametro di granularizzazione influenzi le strutture di equilibrio e permettendo di valutare la capacità di recupero delle coalizioni rispetto a una verità di base.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Il paper presenta MINT, un framework di addestramento che integra supervisione tramite trascrittomica spaziale nei modelli fondazionali di patologia per migliorare sia la previsione dell'espressione genica che le prestazioni nelle attività patologiche generali senza dimenticare le conoscenze morfologiche preesistenti.

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang2026-03-10💻 cs

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

Il paper propone E²OAL, un quadro unificato e privo di rilevatori per l'apprendimento attivo in scenari open-set che sfrutta le classi sconosciute etichettate attraverso clustering strutturale e calibrazione Dirichlet per migliorare simultaneamente la precisione, l'efficienza e la discriminazione delle classi note.

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang2026-03-10🤖 cs.LG

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Questo paper propone un framework bayesiano guidato dai concetti per il riconoscimento di immagini zero-shot che supera i limiti dell'ingegneria euristica dei prompt, sintetizzando concetti discriminativi tramite LLM e filtrando gli outlier con una likelihood adattiva per ottenere prestazioni superiori rispetto agli stati dell'arte.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Geometric Transformation-Embedded Mamba for Learned Video Compression

Il paper propone un framework di compressione video appresa basato su una strategia di trasformazione diretta che integra un modulo Mamba a cascata con trasformazioni geometriche e una rete di raffinamento locale, superando i metodi tradizionali di stima del movimento e ottenendo prestazioni superiori in termini di qualità percettiva e coerenza temporale a bassi bitrate.

Hao Wei, Yanhui Zhou, Chenyang Ge2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

Il paper propone un framework di fusione basato sulla scomposizione spettrale che, integrando un modulo di aggregazione deformabile e meccanismi di attenzione incrociata, risolve efficacemente il problema della sovrapposizione non allineata nelle immagini iperspettrali per ottenere una risoluzione spaziale superiore.

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

Il paper propone RLPR, un framework innovativo per il riconoscimento dei luoghi che allinea scansioni radar a mappe LiDAR tramite un'asimmetria cross-modale in due fasi, garantendo prestazioni robuste e generalizzabili in tutte le condizioni meteorologiche per la guida autonoma.

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Il paper propone IMSE, un metodo di adattamento al test che sfrutta gli esperti spettrali intrinseci dei Vision Transformers tramite la decomposizione SVD e una perdita di massimizzazione della diversità, ottenendo prestazioni all'avanguardia con un numero di parametri aggiornabili drasticamente ridotto.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

Il paper propone un approccio ibrido basato su Vision Transformer con codifica posizionale 2D e un decoder a attenzione di copertura per il riconoscimento di espressioni matematiche, ottenendo risultati all'avanguardia sul dataset IM2LATEX-100K con un punteggio BLEU di 89,94.

Anh Duy Le, Van Linh Pham, Vinh Loi Ly, Nam Quan Nguyen, Huu Thang Nguyen, Tuan Anh Tran2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

Questo studio confronta la generazione di codice TikZ con la sintesi diretta di immagini per convertire diagrammi di automa disegnati a mano dagli studenti in rappresentazioni digitali accurate, dimostrando che la correzione umana delle descrizioni testuali generate dai modelli visione-linguaggio è essenziale per migliorare la qualità del risultato finale e supportare la valutazione automatizzata nell'educazione informatica.

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

$L^3$ :Scene-agnostic Visual Localization in the Wild

Il paper propone $L^3$ , un innovativo framework di localizzazione visiva senza mappa che, sfruttando la ricostruzione 3D online feed-forward e un processo di raffinamento in due fasi, raggiunge prestazioni elevate e una robustezza superiore nelle scene sparse senza richiedere alcuna pre-elaborazione offline o memorizzazione di rappresentazioni della scena.

Yu Zhang, Muhua Zhu, Yifei Xue, Tie Ji, Yizhen Lao2026-03-10💻 cs

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

Il paper presenta VisualAD, un framework puramente visivo basato su Vision Transformer che, eliminando la dipendenza dai modelli linguaggio-immagine, utilizza token apprendibili e meccanismi di attenzione specifici per raggiungere prestazioni all'avanguardia nella rilevazione di anomalie zero-shot su 13 benchmark industriali e medici.

Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu2026-03-10💻 cs

← Precedente Successivo →

cs.CV