DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Il paper presenta DSH-Bench, un benchmark innovativo per la generazione di immagini testo-su-oggetto che supera le limitazioni degli approcci esistenti attraverso una tassonomia gerarchica, una classificazione granulare della difficoltà e dei scenari, e una nuova metrica di coerenza dell'identità (SICS) per fornire analisi diagnostiche approfondite e guidare il futuro sviluppo dei modelli.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

TrianguLang è un framework feed-forward per la localizzazione 3D basato sul linguaggio che, grazie al meccanismo di attenzione semantica consapevole della geometria (GASA), raggiunge uno stato dell'arte nella segmentazione e localizzazione senza richiedere calibrazione della camera o ottimizzazione per scena, garantendo al contempo coerenza geometrica e un'alta velocità di inferenza.

Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

Il paper propone SAMoE-VLA, un modello Vision-Language-Action per la guida autonoma che supera le limitazioni dei meccanismi MoE tradizionali selezionando gli esperti in base a rappresentazioni strutturate della scena (BEV) e integrando un'attenzione causale cross-modale, ottenendo così prestazioni all'avanguardia con un minor numero di parametri.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

Il paper presenta UniGround, un metodo di grounding visivo 3D universale e senza addestramento che supera i limiti dei modelli pre-addestrati attraverso un ragionamento visivo e geometrico in due fasi, ottenendo risultati state-of-the-art su benchmark come ScanRefer ed EmbodiedScan e dimostrando una robusta generalizzazione in ambienti reali non controllati.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

Il paper introduce MV-Fashion, un ampio dataset video multi-vista con annotazioni semantiche, proprietà dei materiali e dati accoppiati (indossati e piatti) progettato per colmare il divario tra dati sintetici e reali, abilitando ricerche avanzate su provini virtuali, stima delle taglie e sintesi di nuove viste nell'ambito della moda.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

Il paper presenta Edged USLAM, un sistema ibrido visivo-inerziale che combina una front-end consapevole dei bordi e un modulo di profondità basato sull'apprendimento per migliorare la stabilità e la precisione del SLAM in condizioni di illuminazione estrema e movimento rapido, superando i limiti delle soluzioni puramente basate su eventi o di apprendimento profondo in scenari strutturati.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

Il paper presenta MERLIN, un nuovo framework di addestramento per modelli linguistici multimodali nel dominio dei segnali elettromagnetici che, supportato dal dataset EM-100k e dal benchmark EM-Bench, risolve le sfide della scarsità di dati e della fragilità in ambienti a basso rapporto segnale-rumore (SNR), ottenendo prestazioni all'avanguardia.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

Il paper presenta ALOOD, un nuovo metodo che sfrutta le rappresentazioni linguistiche di un modello visione-linguaggio per allineare le caratteristiche LiDAR e trattare il rilevamento di oggetti fuori distribuzione come un compito di classificazione zero-shot, migliorando così la sicurezza nei sistemi di guida autonoma.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Il paper propone MM-TS, un metodo che estende la programmazione della temperatura e dei margini all'apprendimento contrastivo multimodale adattandoli dinamicamente alla distribuzione dei dati a coda lunga, unificando così gli approcci InfoNCE e max-margin per ottenere risultati all'avanguardia su diversi dataset immagine-testo e video-testo.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Questo studio presenta due strategie di fusione multimodale, RGIF e RGMAF, che integrano allineamento spaziale e gate di affidabilità per migliorare significativamente la rilevazione di droni su dataset eterogenei termico-visivi, raggiungendo un mAP del 97,65% e una recall del 98,64%.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

Il paper presenta Video2LoRA, un framework scalabile e generalizzabile che utilizza un iper-rete leggera per generare pesi LoRA personalizzati da un video di riferimento, permettendo una generazione video semantica coerente e adattabile senza necessità di riaddestramento e con un ingombro di modello inferiore a 150MB.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs