Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Questo studio presenta un nuovo approccio bayesiano basato su Transformer ad alta risoluzione che fonde dati Sentinel-1, RCM e AMSR2 per mappare la concentrazione del ghiaccio marino artico a 200 metri e quantificare l'incertezza, superando le sfide delle etichette imprecise e dell'eterogeneità dei dati grazie a una funzione di perdita supervisionata debole geograficamente ponderata e a un'architettura che integra moduli globali e locali.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

Il paper presenta PinCLIP, un nuovo approccio di apprendimento delle rappresentazioni multimodali su larga scala sviluppato da Pinterest che, grazie a un'architettura ibrida e a un obiettivo di allineamento dei vicini, supera le soluzioni esistenti migliorando significativamente il recupero dei contenuti, la distribuzione di materiale fresco e le prestazioni pubblicitarie.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

Questo lavoro propone un nuovo quadro per la stima della profondità monoculare in chirurgia minimamente invasiva che, integrando target di confidenza calibrati, funzioni di perdita consapevoli della confidenza e una testina di stima durante l'inferenza, migliora l'accuratezza e la affidabilità clinica riducendo l'impatto di artefatti come fumo e riflessi.

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

Il paper presenta L2G-Det, un nuovo framework di rilevamento istanziale che supera i limiti dei metodi basati su proposte sfruttando la corrispondenza densa a livello di patch per generare punti candidati, i quali vengono poi raffinati e utilizzati per guidare un modello SAM potenziato nella segmentazione accurata di oggetti sconosciuti in scenari aperti e affollati.

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs

Spectrum Shortage for Radio Sensing? Leveraging Ambient 5G Signals for Human Activity Detection

Questo articolo presenta l'Ambient Radio Sensing (ARS), un approccio innovativo che risolve la carenza di spettro riutilizzando i segnali 5G esistenti per il rilevamento delle attività umane tramite un dispositivo passivo e un framework di apprendimento cross-modale, dimostrando la fattibilità di stime scheletriche e segmentazioni corporee accurate senza interferire con le comunicazioni primarie.

Kunzhe Song, Maxime Zingraff, Huacheng Zeng2026-03-05💻 cs

Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression

Il paper propone ParaHydra, un nuovo framework di compressione distribuita di immagini multi-vista che introduce il meccanismo di attenzione OmniParallax per modellare le correlazioni tra le viste, superando significativamente le prestazioni degli stati dell'arte esistenti con un elevato risparmio di bitrate e una ridotta complessità computazionale.

Haotian Zhang, Feiyue Long, Yixin Yu + 7 more2026-03-05💻 cs

Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

Questo studio introduce l'iniezione di prompt basata su immagini (IPI), un attacco in scatola nera che nasconde istruzioni avversarie all'interno di immagini naturali per manipolare con successo fino al 64% dei modelli linguistici multimodali, evidenziando una nuova vulnerabilità pratica che richiede urgenti contromisure difensive.

Neha Nagaraja, Lan Zhang, Zhilong Wang + 2 more2026-03-05🤖 cs.AI