cs.CV articoli | Gist.Science

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Il paper presenta VLM-Loc, un framework che sfrutta le capacità di ragionamento spaziale dei modelli visione-linguaggio su mappe a punto cloud trasformate in immagini BEV e grafi di scena per migliorare l'accuratezza della localizzazione basata su descrizioni testuali, accompagnato dal nuovo benchmark CityLoc per la valutazione sistematica.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Il paper introduce MA-EgoQA, un nuovo benchmark e un modello di base chiamato EgoMAS progettati per valutare e migliorare la capacità dei sistemi di intelligenza artificiale di comprendere e rispondere a domande basate su flussi video egocentrici simultanei provenienti da più agenti incarnati.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

Il paper presenta CycleULM, il primo framework di deep learning unificato e privo di etichette per la microscopia di localizzazione ultrasonora, che supera le limitazioni dei dati reali e del divario simulazione-realtà traducendo i dati CEUS in un dominio semplificato, migliorando significativamente contrasto, risoluzione e precisione di localizzazione dei microbolle con elaborazione in tempo reale.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Il paper introduce MissBench, un benchmark e framework che standardizza protocolli di dati mancanti sbilanciati e definisce nuovi metrici diagnostici per valutare l'equità e l'ottimizzazione nei modelli di analisi affettiva multimodale in scenari realistici.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Il paper presenta InternVL-U, un modello multimodale unificato leggero da 4 miliardi di parametri che, grazie a un'architettura modulare e una pipeline di sintesi dati basata sul ragionamento, democratizza le capacità di comprensione, ragionamento, generazione e editing superando modelli unificati molto più grandi.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Il paper introduce DISPLAY, un framework per la generazione di video di interazioni uomo-oggetto ad alta fedeltà e controllabili, che utilizza una guida di movimento sparsa (coordinate del polso e bounding box dell'oggetto), un meccanismo di attenzione focalizzato sull'oggetto e una strategia di training multi-task per superare le limitazioni dei metodi esistenti.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Questo articolo presenta CourtSI, il primo dataset su larga scala e il relativo benchmark per valutare l'intelligenza spaziale dei modelli visione-linguaggio negli sport di rete, dimostrando come l'addestramento su questo nuovo corpus colmi il divario prestazionale tra AI e umani e migliori la capacità di ragionamento spaziale e generazione di commenti.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Il paper presenta WikiCLIP, un framework contrastivo efficiente che supera i metodi generativi per il riconoscimento di entità visive in dominio aperto, ottenendo prestazioni superiori su benchmark come OVEN e riducendo la latenza di inferenza di circa 100 volte grazie all'uso di embedding di modelli linguistici potenziati da un adattatore guidato dalla visione e da una sintesi di negativi difficili.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Questo paper dimostra che la distanza di Chamfer fallisce strutturalmente nell'ottimizzazione di forme 3D a causa di un collasso indotto dal gradiente che può essere risolto solo introducendo un accoppiamento non locale, come illustrato attraverso deformazioni a base condivisa e un prior MPM differenziabile.

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Il paper propone un metodo interpretabile per il recupero fine-granularità di movimenti 3D tramite immagini di angoli articolari e un'interazione tardiva token-patch, superando i limiti dei metodi basati su embedding globali e ottenendo risultati superiori su HumanML3D e KIT-ML.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

Il paper presenta ACADiff, un framework basato su diffusione latente adattiva e consapevole dei dati clinici che sintetizza con successo le modalità di neuroimaging cerebrali mancanti (come sMRI, FDG-PET e AV45-PET) per migliorare la diagnosi dell'Alzheimer, ottenendo prestazioni superiori rispetto ai metodi esistenti anche in scenari con fino all'80% di dati mancanti.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Il paper propone un nuovo framework di adattamento di dominio non supervisionato basato sulla discrepanza del margine di disparità (MDD) per migliorare la segmentazione del fegato nelle immagini CBCT interventistiche, sfruttando dati CT annotati e dati CBCT non annotati proprietari per colmare il divario tra le due modalità di imaging.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

No Image, No Problem: End-to-End Multi-Task Cardiac Analysis from Undersampled k-Space

Il paper presenta k-MTR, un framework di apprendimento rappresentazionale che bypassa la ricostruzione delle immagini per eseguire direttamente analisi cardiache multi-task (come classificazione, regressione e segmentazione) dai dati k-space sottocampionati, allineandoli a uno spazio latente semantico condiviso con le immagini complete.

Yundi Zhang, Sevgi Gokce Kafali, Niklas Bubeck, Daniel Rueckert, Jiazhen Pan2026-03-11🤖 cs.AI

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Questo articolo introduce il concetto di "difficoltà della vetrina intera" (WSD), basato sul disaccordo tra patologi esperti e non esperti, e dimostra che integrare questa metrica nell'addestramento di modelli di Multiple Instance Learning migliora significativamente la precisione nella classificazione del cancro alla prostata, in particolare per i gradi Gleason più elevati.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

Il paper propone C2FMAE, un autoencoder mascherato a flusso da grossolano a fine che risolve le limitazioni dei metodi di pre-addestramento visivo auto-supervisionato apprendendo rappresentazioni visive gerarchiche attraverso una decodifica a cascata e un curriculum di mascheramento progressivo su tre livelli di granularità (semantico, istanza e pixel).

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen2026-03-11🤖 cs.LG

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

Il paper presenta BEACON, un metodo che supera i limiti delle tecniche di navigazione basate su immagini prevedendo mappe di affordanza in vista dall'alto (BEV) per identificare target nascosti da ostacoli, ottenendo un miglioramento significativo rispetto allo stato dell'arte grazie alla fusione di cue spaziali e modelli visione-linguaggio.

Xinyu Gao, Gang Chen, Javier Alonso-Mora2026-03-11🤖 cs.AI

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

Il paper presenta ReCoSplat, un modello autoregressivo di Gaussian Splatting che risolve il problema della sintesi di nuove viste online utilizzando un modulo "Render-and-Compare" per compensare gli errori di posa e una strategia di compressione della cache KV per gestire sequenze lunghe, ottenendo prestazioni state-of-the-art su diversi benchmark.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Questo paper introduce il modello Bag-of-Words Superposition (BOWS) per dimostrare che, nei dati reali, le correlazioni tra le caratteristiche permettono agli interferenze nella sovrapposizione di essere costruttive anziché solo rumorose, generando così strutture semantiche e cicliche che spiegano meglio il comportamento dei modelli linguistici reali rispetto alle teorie basate su caratteristiche non correlate.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Differentiable Microscopy Designs an All Optical Phase Retrieval Microscope

Questo articolo presenta $\partial\mu$ , un approccio di progettazione ottica basato sull'apprendimento automatico che, attraverso la microscopia differenziabile, supera i metodi tradizionali per la ricostruzione di fase ottica, dimostrando la propria superiorità su diversi dataset biologici e convalidando sperimentalmente un design appreso.

Kithmini Herath, Hasindu Kariyawasam, Ramith Hettiarachchi, Udith Haputhanthri, Dineth Jayakody, Raja N. Ahmad, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage2026-03-10🔬 physics.optics

Class Overwhelms: Mutual Conditional Blended-Target Domain Adaptation

Il paper propone un metodo di adattamento di dominio per target ibridi che, superando la dipendenza dalle etichette di dominio, allinea reciprocamente le distribuzioni condizionali delle classi e degli stili attraverso un discriminatore guidato dall'incertezza e l'augmentazione delle feature, ottenendo prestazioni superiori allo stato dell'arte specialmente in presenza di spostamento della distribuzione delle etichette.

Pengcheng Xu, Boyu Wang, Charles Ling2026-03-10💻 cs

← Precedente Successivo →