Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Questo lavoro introduce il dataset e il benchmark Qualcomm Interactive Video Dataset (IVD) per valutare le capacità dei modelli visione-linguaggio di rispondere in tempo reale a domande su scene reali, dimostrando che, sebbene i modelli attuali siano molto inferiori agli esseri umani, il fine-tuning su questo tipo di dati può colmare significativamente il divario nelle competenze percettive necessarie.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning

Il paper propone un metodo innovativo per l'apprendimento incrementale di nuove classi con pochi esempi, ispirato all'analogia umana, che genera pesi per le nuove classi senza fine-tuning dei parametri utilizzando un generatore analogico basato su tre moduli specifici, ottenendo risultati superiori rispetto agli stati dell'arte su diversi dataset.

Jizhou Han, Chenhao Ding, Yuhang He + 4 more2026-02-24🤖 cs.AI

Feature Representation Transferring to Lightweight Models via Perception Coherence

Il paper propone un metodo di trasferimento delle rappresentazioni delle caratteristiche verso modelli leggeri basato sulla "coerenza percettiva", una nuova nozione probabilistica che permette allo studente di imitare la percezione del docente preservando il ranking delle dissimilarità piuttosto che la geometria assoluta, ottenendo prestazioni superiori o paragonabili ai metodi esistenti.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding

Il paper introduce U2-BENCH, il primo benchmark completo per valutare le capacità dei grandi modelli visione-linguaggio nell'interpretazione delle immagini ecografiche attraverso 8 compiti clinici e 7.241 casi, rivelando che, sebbene le prestazioni nella classificazione siano promettenti, restano sfide significative nel ragionamento spaziale e nella generazione di linguaggio clinico.

Anjie Le, Henan Liu, Yue Wang + 18 more2026-02-24🤖 cs.LG

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

Il paper presenta TEMU-VTOFF, un nuovo framework basato su un'architettura dual DiT potenziata da meccanismi di attenzione multimodale e testuali che risolve le ambiguità visive e preserva i dettagli per generare immagini di prodotto standardizzate a partire da foto di persone vestite, superando le limitazioni degli approcci esistenti e raggiungendo prestazioni state-of-the-art.

Davide Lobba, Fulvio Sanguigni, Bin Ren + 3 more2026-02-24💻 cs

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Questo articolo introduce la "Perception Characteristics Distance" (PCD), una nuova metrica che valuta la stabilità e la robustezza dei sistemi di guida autonoma considerando l'incertezza stocastica degli algoritmi di percezione, e convalida il suo approccio tramite il dataset "SensorRainFall" raccolto in diverse condizioni meteorologiche e di illuminazione.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Questo lavoro propone un nuovo framework per la ricostruzione iperspettrale da smartphone che sfrutta un sistema a triple fotocamera con filtri spettrali, introduce il primo dataset dedicato "Doomer" e un modulo di allineamento leggero, ottenendo una precisione spettrale superiore del 30% rispetto alle fotocamere RGB tradizionali e un ulteriore miglioramento del 5% rispetto agli stati dell'arte.

Daniil Reutsky, Daniil Vladimirov, Yasin Mamedov + 4 more2026-02-24💻 cs

Exploring Partial Multi-Label Learning via Integrating Semantic Co-occurrence Knowledge

Il paper propone SCINet, un nuovo framework per l'apprendimento multi-etichetta parziale che integra conoscenze semantiche di co-occorrenza tramite un prompter bi-dominante e una fusione cross-modale per migliorare l'allineamento semantico e le relazioni tra istanze ed etichette, ottenendo risultati superiori rispetto agli stati dell'arte su quattro dataset di riferimento.

Xin Wu, Fei Teng, Yue Feng + 4 more2026-02-24🤖 cs.AI