Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Questo studio sistematico sull'adattamento continuo al test (CTTA) dimostra che la scelta della famiglia di mascheramento (spaziale o in frequenza) è determinante per la stabilità dell'apprendimento, rivelando che la mascheratura spaziale preserva le rappresentazioni strutturali su architetture basate su patch, mentre quella in frequenza può portare a un collasso catastrofico, a meno che non vi sia un allineamento specifico tra architettura e compito.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

ββ-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

Il paper presenta β\beta-CLIP, un nuovo framework di apprendimento contrastivo condizionato dal testo che allinea gerarchicamente rappresentazioni visive e linguistiche a più livelli di granularità, migliorando significativamente le prestazioni nelle attività di allineamento denso e raggiungendo lo stato dell'arte senza l'uso di negativi difficili.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

Il paper introduce CRISP, un metodo che ricostruisce da video monoculare geometrie di scena pulite e pronte per la simulazione, combinando primitivi planari, modellazione dei contatti uomo-ambiente e controllo fisico tramite reinforcement learning, riducendo drasticamente i fallimenti nel tracciamento del movimento e abilitando applicazioni Real2Sim su larga scala.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Questa ricerca presenta un quadro completo per un sistema di diagnosi dermatologica basato sull'intelligenza artificiale che integra l'analisi delle immagini con la storia familiare per migliorare l'accuratezza diagnostica e la personalizzazione delle cure, con validazione clinica futura pianificata.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Questo studio propone "ForCM", un metodo innovativo che integra l'analisi di immagini basata su oggetti (OBIA) con modelli di deep learning applicati a immagini multispettrali Sentinel-2 per migliorare l'accuratezza della mappatura della copertura forestale nell'Amazzonia rispetto ai metodi tradizionali.

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Il paper presenta Vision-DeepResearch, un nuovo paradigma per i modelli linguistici multimodali che, attraverso un addestramento supervisionato e per rinforzo, abilita ricerche visive e testuali profonde, multi-turno e multi-scala per superare il rumore visivo e risolvere domande complesse, superando le prestazioni degli attuali modelli e dei flussi di lavoro basati su fondamenti proprietari.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Questo lavoro introduce il benchmark CAAD-3K e un nuovo framework di apprendimento della compatibilità condizionale basato su rappresentazioni visione-linguaggio per affrontare l'individuazione di anomalie contestuali, superando i limiti degli approcci tradizionali che considerano l'anomalia come una proprietà intrinseca indipendente dal contesto.

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Questo articolo propone un metodo innovativo di quantizzazione post-allenamento per i modelli di diffusione che, assegnando pesi ottimali ai campioni di calibrazione per allineare i gradienti tra i diversi passi temporali, supera le limitazioni delle tecniche esistenti e migliora significativamente l'efficienza e le prestazioni del modello.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

Il paper propone CaCoVID, un nuovo algoritmo di compressione dei token basato sull'apprendimento per rinforzo che ottimizza attivamente la selezione dei token video in base al loro contributo effettivo alle previsioni corrette, superando i limiti dei metodi tradizionali basati sui punteggi di attenzione per migliorare l'efficienza dei modelli linguistici video.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Il paper presenta VDR-Bench, un nuovo benchmark di 2.000 istanze progettato per valutare in modo realistico le capacità di ricerca visiva e testuale dei modelli linguistici multimodali, superando le limitazioni degli attuali dataset e proponendo un flusso di lavoro a più round con ritaglio dell'immagine per migliorare le prestazioni di recupero visivo.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL