cs.CV articoli | Gist.Science

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Questo studio sistematico sull'adattamento continuo al test (CTTA) dimostra che la scelta della famiglia di mascheramento (spaziale o in frequenza) è determinante per la stabilità dell'apprendimento, rivelando che la mascheratura spaziale preserva le rappresentazioni strutturali su architetture basate su patch, mentre quella in frequenza può portare a un collasso catastrofico, a meno che non vi sia un allineamento specifico tra architettura e compito.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

Il paper presenta Brain-Semantoks, un modello fondazionale auto-distillato che apprende token semantici robusti dalle dinamiche cerebrali fMRI per migliorare le prestazioni su compiti downstream e la generalizzazione fuori distribuzione.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

Il paper presenta $\beta$ -CLIP, un nuovo framework di apprendimento contrastivo condizionato dal testo che allinea gerarchicamente rappresentazioni visive e linguistiche a più livelli di granularità, migliorando significativamente le prestazioni nelle attività di allineamento denso e raggiungendo lo stato dell'arte senza l'uso di negativi difficili.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

Il paper introduce CRISP, un metodo che ricostruisce da video monoculare geometrie di scena pulite e pronte per la simulazione, combinando primitivi planari, modellazione dei contatti uomo-ambiente e controllo fisico tramite reinforcement learning, riducendo drasticamente i fallimenti nel tracciamento del movimento e abilitando applicazioni Real2Sim su larga scala.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

SoFlow: Solution Flow Models for One-Step Generative Modeling

Il paper presenta SoFlow, un framework per la generazione in un singolo passo che, grazie a una nuova funzione di perdita di coerenza della soluzione che evita il calcolo del prodotto vettore-Jacobiano, supera le prestazioni dei modelli MeanFlow su ImageNet 256x256.

Tianze Luo, Haotian Yuan, Zhuang Liu2026-03-03🤖 cs.LG

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Questa ricerca presenta un quadro completo per un sistema di diagnosi dermatologica basato sull'intelligenza artificiale che integra l'analisi delle immagini con la storia familiare per migliorare l'accuratezza diagnostica e la personalizzazione delle cure, con validazione clinica futura pianificata.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

Il paper presenta GeoTeacher, un metodo semi-supervisionato per il rilevamento 3D di oggetti che migliora l'accuratezza della localizzazione e della percezione con dati limitati, introducendo una supervisione geometrica basata su punti chiave e un'augmentazione dei dati a livello di voxel con meccanismo di decadimento della distanza.

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Questo studio propone "ForCM", un metodo innovativo che integra l'analisi di immagini basata su oggetti (OBIA) con modelli di deep learning applicati a immagini multispettrali Sentinel-2 per migliorare l'accuratezza della mappatura della copertura forestale nell'Amazzonia rispetto ai metodi tradizionali.

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

Il paper propone CEM, un plugin plug-and-play basato sulla minimizzazione dell'errore cumulativo che ottimizza dinamicamente le strategie di caching per accelerare i Diffusion Transformer, migliorando significativamente la fedeltà generativa senza introdurre costi computazionali aggiuntivi.

Tong Shao, Yusen Fu, Guoying Sun + 3 more2026-03-03💻 cs

Aligned explanations in neural networks

Il paper introduce i PiNets, un framework di deep learning basato sul principio di leggibilità del modello, che garantisce allineamento esplicativo assicurando che le spiegazioni riflettano direttamente il processo decisionale del modello piuttosto che fungere da razionalizzazioni, ottenendo al contempo fedeltà in termini di significatività, robustezza e sufficienza.

Corentin Lobet, Francesca Chiaromonte2026-03-03📊 stat

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

Il paper presenta TP-Blend, un framework leggero e senza addestramento che combina due prompt testuali distinti per fondere con precisione un nuovo oggetto e uno stile in modelli di diffusione, utilizzando i moduli CAOF e SASF per preservare la coerenza geometrica e la texture dettagliata.

Xin Jin, Yichuan Zhong, Yapeng Tian2026-03-03🤖 cs.AI

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

Il paper presenta un metodo zero-shot per l'allineamento 3D di mesh basato su prompt testuali che, senza addestramento di nuovi modelli, ottimizza direttamente la posa relativa tramite gradienti CLIP e vincoli geometrici differenziabili, ottenendo risultati superiori rispetto agli approcci esistenti.

Rotem Gatenyo, Ohad Fried2026-03-03💻 cs

Counterfactual Explanations on Robust Perceptual Geodesics

Il paper introduce le Perceptual Counterfactual Geodesics (PCG), un metodo che genera spiegazioni controfattuali tracciando geodetiche su una varietà Riemanniana percepita, garantendo così transizioni semanticamente valide e robuste che superano le limitazioni delle metriche di distanza tradizionali.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Il paper presenta Vision-DeepResearch, un nuovo paradigma per i modelli linguistici multimodali che, attraverso un addestramento supervisionato e per rinforzo, abilita ricerche visive e testuali profonde, multi-turno e multi-scala per superare il rumore visivo e risolvere domande complesse, superando le prestazioni degli attuali modelli e dei flussi di lavoro basati su fondamenti proprietari.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Questo lavoro introduce il benchmark CAAD-3K e un nuovo framework di apprendimento della compatibilità condizionale basato su rappresentazioni visione-linguaggio per affrontare l'individuazione di anomalie contestuali, superando i limiti degli approcci tradizionali che considerano l'anomalia come una proprietà intrinseca indipendente dal contesto.

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

Il paper presenta HitEmotion, un benchmark gerarchico basato sulla Teoria della Mente, insieme a un metodo di ragionamento guidato e all'algoritmo di apprendimento per rinforzo TMPO, per migliorare la capacità dei modelli linguistici multimodali di comprendere e ragionare sulle emozioni in modo più profondo e fedele.

Meng Luo, Bobo Li, Shanqing Xu + 8 more2026-03-03💻 cs

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Questo articolo propone un metodo innovativo di quantizzazione post-allenamento per i modelli di diffusione che, assegnando pesi ottimali ai campioni di calibrazione per allineare i gradienti tra i diversi passi temporali, supera le limitazioni delle tecniche esistenti e migliora significativamente l'efficienza e le prestazioni del modello.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

Il paper propone CaCoVID, un nuovo algoritmo di compressione dei token basato sull'apprendimento per rinforzo che ottimizza attivamente la selezione dei token video in base al loro contributo effettivo alle previsioni corrette, superando i limiti dei metodi tradizionali basati sui punteggi di attenzione per migliorare l'efficienza dei modelli linguistici video.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

Il paper introduce CloDS, un framework di apprendimento non supervisionato che, attraverso una pipeline a tre stadi e una modulazione dell'opacità duale, apprende la dinamica dei tessuti direttamente da osservazioni visive multi-vista senza richiedere proprietà fisiche note, garantendo una forte generalizzazione in condizioni sconosciute.

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Il paper presenta VDR-Bench, un nuovo benchmark di 2.000 istanze progettato per valutare in modo realistico le capacità di ricerca visiva e testuale dei modelli linguistici multimodali, superando le limitazioni degli attuali dataset e proponendo un flusso di lavoro a più round con ritaglio dell'immagine per migliorare le prestazioni di recupero visivo.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

← Precedente Successivo →

cs.CV