cs.CV articoli | Gist.Science

Soft Equivariance Regularization for Invariant Self-Supervised Learning

Il paper propone la Soft Equivariance Regularization (SER), un metodo di regolarizzazione che migliora l'apprendimento auto-supervisionato decouplando l'invarianza e l'equivarianza su diversi livelli della rete, ottenendo così prestazioni superiori nella classificazione, nella robustezza e nel rilevamento di oggetti senza richiedere etichette di trasformazione o componenti aggiuntivi significativi.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

Il paper presenta HARP, un framework di deep learning che armonizza i dati di risonanza magnetica a diffusione (dMRI) in vivo addestrando esclusivamente su un fantasma, eliminando così la necessità di costosi e complessi dati umani multi-sito e migliorando la scalabilità degli studi clinici su larga scala.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Questo lavoro introduce un nuovo metodo per migliorare il ragionamento visivo dei modelli visione-linguaggio in ambito medico, utilizzando le traiettorie di sguardo umano come segnale di supervisione temporale per guidare l'acquisizione sequenziale delle evidenze, ottenendo così prestazioni superiori sia in dominio che in scenari zero-shot.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Questo studio dimostra che l'asimmetria architetturale nella distillazione della conoscenza provoca un collasso dimensionale critico nelle reti CNN di piccole dimensioni, riducendo drasticamente la loro capacità di mantenere l'immunità al rumore intrinseca del modello insegnante a causa di limitazioni geometriche fondamentali nello spazio delle rappresentazioni.

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

Questo articolo introduce gRef-CW, il primo dataset per il grounding visivo generalizzato in agricoltura, e propone Weed-VG, un framework modulare che affronta le sfide specifiche del settore come la somiglianza tra piante, le scale multiple e le espressioni negative.

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Questo articolo introduce SIQA, un nuovo framework e benchmark per la valutazione della qualità delle immagini scientifiche che, superando i limiti dei metodi tradizionali focalizzati solo sulla percezione, misura sia la validità scientifica che la chiarezza cognitiva, rivelando attraverso esperimenti su modelli multimodali che l'allineamento ai giudizi degli esperti non garantisce una reale comprensione scientifica.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

Il paper dimostra che i modelli MLLM basati solo su RGB falliscono nella generalizzazione spaziale tra diverse telecamere a causa dell'ambiguità tra proprietà fisiche e prospettiva, e propone un framework "Camera-Aware" che, integrando parametri intrinseci, augmentation dei dati e distillazione di priors geometrici, risolve tale problema garantendo un'intelligenza spaziale robusta e generalizzabile.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

Questo studio dimostra che l'applicazione della regressione quantilica conformalizzata ai modelli di deep learning per la previsione dei brillamenti solari migliora significativamente l'affidabilità delle previsioni spaziali fornendo intervalli di confidenza con copertura valida e lunghezze ottimali.

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Il paper propone UWPD, un nuovo paradigma per la rilevazione universale di filigrane invisibili agnostico agli algoritmi di embedding, supportato dal dataset UniFreq-100K e dal modello FSNet che utilizza modulazioni frequenziali adattive per identificare la presenza di marchi di copyright senza necessità di informazioni di decodifica.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Il paper introduce HERO, un nuovo framework per il grounding temporale di frasi in video a vocabolario aperto, accompagnato dai primi benchmark dedicati (Charades-OV e ActivityNet-OV) e risultati sperimentali che ne dimostrano la superiorità rispetto agli stati dell'arte nella generalizzazione a query linguistiche non viste.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

Questo lavoro propone un nuovo framework di deep learning basato sull'attenzione moltiplicativa esterna che integra mappe di tortuosità vascolare e dropout per migliorare la diagnosi della degenerazione maculare legata all'età (AMD) tramite OCTA, offrendo risultati clinicamente interpretabili e allineati alla fisiopatologia della malattia.

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Il paper presenta un framework decentralizzato efficiente per l'addestramento di modelli di diffusione eterogenei che, combinando obiettivi di training diversi (DDPM e Flow Matching) e un'architettura ottimizzata, riduce drasticamente i requisiti computazionali e di dati rispetto alle approcci precedenti mantenendo o migliorando la qualità e la diversità dei risultati.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

Il paper introduce ButterflyViT, un metodo che riduce la memoria necessaria per i Vision Transformers basati su Mixture of Experts su dispositivi edge fino a 354 volte trattando gli esperti come rotazioni geometriche di un substrato condiviso anziché come matrici indipendenti, ottenendo una scalabilità sub-lineare con perdita di accuratezza trascurabile.

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

Il paper presenta XMACNet, una rete neurale convoluzionale leggera e spiegabile che integra l'attenzione automatica e la fusione multimodale di immagini RGB e indici di vegetazione per classificare con alta precisione le malattie delle piante di peperoncino, superando i modelli esistenti e abilitando il deployment su dispositivi edge.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

Il paper presenta EarthBridge, un framework di traduzione ad alta fedeltà basato su modelli Diffusion Bridge Impliciti e Contrastive Unpaired Translation, che ha ottenuto il secondo posto nella sfida MAVIC-T per la conversione tra immagini aeree multispettrali (EO, IR e SAR) grazie a un'architettura UNet ottimizzata e tecniche di inizializzazione avanzate.

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

Il paper presenta HiDE, un framework di modellazione dell'entropia basato su dizionari gerarchici per la compressione di immagini appresa, che migliora l'efficienza di codifica sfruttando in modo strutturato prior esterni globali e locali e un stimatore di parametri adattivo, ottenendo risparmi significativi nel bitrate rispetto allo stato dell'arte.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

A Hybrid Machine Learning Model for Cerebral Palsy Detection

Questo studio presenta un modello ibrido di machine learning che combina tre reti CNN (VGG19, EfficientNet e ResNet50) con un classificatore Bi-LSTM per rilevare la paralisi cerebrale nelle immagini MRI neonatali, raggiungendo un'accuratezza del 98,83% superiore a quella dei singoli modelli pre-addestrati.

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Lo studio rivela che la capacità dei modelli visione-linguaggio a lungo termine di mantenere un ragionamento intermedio ancorato allo stato visivo in evoluzione (misurata tramite il Step Grounding Rate) è un indicatore predittivo primario della loro robustezza e generalizzazione fuori distribuzione, superando la semplice accuratezza finale.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Il paper introduce MotionBits, un nuovo concetto di segmentazione video basato sull'equivalenza del twist spaziale cinematico per i corpi rigidi, accompagnato dal benchmark MoRiBo e da un metodo di segmentazione senza apprendimento che supera le tecniche esistenti per supportare compiti di ragionamento e manipolazione incarnata.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Il paper presenta il "Perturbed Gaussian Ensemble", un nuovo framework per la selezione attiva delle viste nella tomografia computerizzata a vista sparsa che, integrando la modellazione dell'incertezza con la scalatura stocastica delle densità dei primitivi Gaussiani, seleziona iterativamente le proiezioni ottimali per migliorare la fedeltà della ricostruzione e ridurre gli artefatti geometrici.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

← Precedente Successivo →

cs.CV