cs.CV articoli | Gist.Science

Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

Il paper presenta FiNDR, il primo framework basato su modelli linguistici multimodali potenziati dal ragionamento per il riconoscimento fine-granularità senza vocabolario, che supera le prestazioni degli approcci precedenti e delle basi zero-shot utilizzando ground-truth predefiniti.

Dmitry Demidov, Zaigham Zaheer, Zongyan Han + 2 more2026-02-27💻 cs

Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control

Il paper presenta UniPath, un framework di generazione di immagini patologiche che supera la semplice simulazione dei pixel sfruttando token semantici diagnostici e controllo tramite prototipi per garantire una generazione controllata e di alta qualità, supportata da un nuovo corpus di dati e una valutazione rigorosa.

Minghao Han, Yichen Liu, Yizhou Liu + 5 more2026-02-27💻 cs

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

Il paper presenta WebGym, il più grande ambiente open-source per l'addestramento di agenti web visivi su quasi 300.000 compiti reali, che grazie a un sistema di rollout asincrono ad alta velocità e a un'ampia diversità di task, permette di ottenere un modello basato su Qwen-3-VL-8B-Instruct che supera le prestazioni di modelli proprietari come GPT-4o e GPT-5-Thinking su test fuori distribuzione.

Hao Bai, Alexey Taymanov, Tong Zhang + 2 more2026-02-27🤖 cs.LG

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

Il paper presenta ThinkRL-Edit, un framework di apprendimento per rinforzo che migliora l'editing di immagini basato sul ragionamento disaccoppiando la sintesi visiva dalla logica, introducendo un campionamento con catena di pensiero e strategie di ricompensa non distorte per superare i limiti delle attuali tecniche di editing guidato da istruzioni.

Hengjia Li, Liming Jiang, Qing Yan + 6 more2026-02-27💻 cs

MERGETUNE: Continued Fine-Tuning of Vision-Language Models

Il paper introduce MERGETUNE, una strategia di continued fine-tuning basata sulla connettività modale lineare che, agendo a posteriori su modelli visione-linguaggio già adattati, ripristina le conoscenze pre-addestrate perse mitigando l'oblio catastrofico e migliorando le prestazioni di generalizzazione senza richiedere replay di dati o modifiche architetturali.

Wenqing Wang, Da Li, Xiatian Zhu + 1 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Il paper presenta Molmo2, una nuova famiglia di modelli visione-linguaggio open-weight che, grazie a un set di dati video e multi-immagine raccolti senza l'uso di modelli proprietari e a una ricetta di formazione innovativa, raggiunge prestazioni all'avanguardia nel grounding video, superando sia i modelli open-source esistenti che alcuni modelli proprietari come Gemini 3 Pro.

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

A Pragmatic VLA Foundation Model

Il paper presenta LingBot-VLA, un modello fondazionale Vision-Language-Action addestrato su 20.000 ore di dati reali che, grazie alle sue superiori capacità di generalizzazione e a un'efficienza computazionale ottimizzata, supera i competitor e viene reso disponibile come risorsa open source per accelerare lo sviluppo della robotica.

Wei Wu, Fan Lu, Yunnan Wang + 22 more2026-02-27💻 cs

Visible Light Positioning With Lamé Curve LEDs: A Generic Approach for Camera Pose Estimation

Questo articolo propone un approccio generico per la stima della posa della camera basato su curve di Lamé, denominato LC-VLP, che supera i limiti delle geometrie LED specifiche e dimostra, tramite simulazioni ed esperimenti, una precisione di posizionamento superiore ai metodi esistenti con un errore medio inferiore a 4 cm.

Wenxuan Pan, Yang Yang, Dong Wei + 4 more2026-02-27⚡ eess

VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations

Il paper propone un metodo innovativo basato su RVQ-VAE e apprendimento contrastivo per disaccoppiare contenuto e stile nei dati di movimento umano, permettendo il trasferimento di stile senza riaddestramento tramite una tecnica di scambio di codici quantizzati.

Fatemeh Zargarbashi, Dhruv Agrawal, Jakob Buhmann + 3 more2026-02-27🤖 cs.AI

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Il paper presenta OneVision-Encoder, un modello che allinea l'architettura visiva ai principi di compressione dei codec video per concentrare il calcolo solo sulle regioni ad alta entropia, ottenendo così una maggiore efficienza e prestazioni superiori rispetto ai backbone esistenti su compiti di comprensione multimodale.

Feilong Tang, Xiang An, Yunyao Yan + 16 more2026-02-27💻 cs

HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection

Il paper propone HLGFA, un framework per la rilevazione di anomalie non supervisionata nell'industria che, sfruttando l'allineamento delle caratteristiche tra risoluzioni alta e bassa e un'augmentazione dei dati robusta al rumore, supera i metodi esistenti ottenendo un'AUROC del 97,9% a livello di pixel sul dataset MVTec AD.

Han Zhou, Yuxuan Gao, Yinchao Du + 1 more2026-02-27💻 cs

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

Il paper presenta GigaBrain-0.5M*, un modello visione-linguaggio-azione che integra l'apprendimento per rinforzo basato su modelli del mondo tramite la metodologia RAMP, ottenendo significativi miglioramenti nelle prestazioni e nell'adattabilità cross-task per compiti di manipolazione robotica complessi e a lungo termine.

GigaBrain Team, Boyuan Wang, Bohan Li + 23 more2026-02-27💻 cs

PCReg-Net: Progressive Contrast-Guided Registration for Cross-Domain Image Alignment

Il paper presenta PCReg-Net, un framework di registrazione progressiva guidato dal contrasto che allinea immagini di domini eterogenei attraverso una strategia da grossolano a fine, ottenendo prestazioni superiori e inferenza in tempo reale su benchmark retinici e microscopici con un numero ridotto di parametri.

Jiahao Qin2026-02-27🤖 cs.AI

Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

Questo studio presenta una valutazione sistematica su larga scala di modelli fondazionali video per lo screening remoto del morbo di Parkinson, dimostrando che l'efficacia diagnostica dipende fortemente dall'architettura del modello e dal tipo di compito clinico, con risultati che offrono un solido punto di partenza per il monitoraggio neurologico a distanza.

Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader + 11 more2026-02-27💻 cs

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Questo paper propone il framework DVI (Deferred Visual Ingestion), che supera i limiti delle strategie di pre-ingestione nei documenti ingegneristici densi di immagini sostituendo la descrizione visiva preliminare con un indicizzazione gerarchica automatica basata sulla struttura del documento e un'analisi visiva differita solo sulle pagine candidate, ottenendo così miglioramenti significativi nell'accuratezza del QA e nel recupero delle immagini rispetto ai metodi basati su embedding.

Tao Xu2026-02-27💬 cs.CL

Depth from Defocus via Direct Optimization

Questo articolo dimostra che l'approccio di ottimizzazione globale basato sulla minimizzazione alternata è un metodo fattibile ed efficace per il recupero della profondità da immagini sfocate, permettendo di risolvere il problema a risoluzioni superiori rispetto ai metodi di deep learning attuali.

Holly Jackson, Caleb Adams, Ignacio Lopez-Francos + 1 more2026-02-27💻 cs

Compact Hadamard Latent Codes for Efficient Spectral Rendering

Il paper propone i "Hadamard spectral codes", una rappresentazione latente compatta che permette il rendering spettrale efficiente utilizzando operazioni RGB standard, preservando la linearità e approssimando la moltiplicazione spettrale per ridurre significativamente i costi computazionali mantenendo alta la fedeltà cromatica.

Jiaqi Yu, Dar'ya Guarnera, Giuseppe Claudio Guarnera2026-02-27💻 cs

Automated Disentangling Analysis of Skin Colour for Lesion Images

Questo lavoro propone un framework di disentanglement per le immagini dermatologiche che, attraverso la manipolazione controllata dei fattori di colore della pelle e la correzione geometrica, genera dati di addestramento diversificati per migliorare l'equità e le prestazioni dei modelli di classificazione delle lesioni cutanee.

Wenbo Yang, Eman Rezk, Walaa M. Moursi + 1 more2026-02-27⚡ eess

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

Il paper presenta FUSAR-GPT, un modello linguistico-visivo innovativo per immagini SAR che, integrando un dataset di triplette immagine-testo-funzione AlphaEarth, un modello di baseline geospaziale come conoscenza del mondo e una strategia di addestramento in due fasi, supera significativamente le prestazioni degli stati dell'arte nell'interpretazione intelligente delle immagini radar.

Xiaokun Zhang, Yi Yang, Ziqi Ye + 6 more2026-02-27🤖 cs.AI

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

Il paper introduce DICArt, un nuovo framework che formula la stima della posa di oggetti articolati come un processo di diffusione discreta condizionato, integrando un decider di flusso dinamico e una strategia di accoppiamento cinematico gerarchico per superare le limitazioni dei metodi continui esistenti e ottenere prestazioni superiori nella stima 6D.

Li Zhang, Mingyu Mei, Ailing Wang + 7 more2026-02-27🤖 cs.AI

← Precedente Successivo →