SAMRI-2: A Memory-based Model for Cartilage and Meniscus Segmentation in 3D MRIs of the Knee Joint

Questo studio presenta SAMRI-2, un modello di visione artificiale basato sulla memoria e arricchito da una strategia di mescolamento ibrida, che supera le prestazioni degli attuali metodi di segmentazione per la cartilagine e il menisco nelle risonanze magnetiche 3D del ginocchio, garantendo alta precisione con un ridotto sforzo di annotazione.

Danielle L. Ferreira, Bruno A. A. Nunes, Xuzhe Zhang + 3 more2026-02-24⚡ eess

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Questo lavoro introduce il dataset e il benchmark Qualcomm Interactive Video Dataset (IVD) per valutare le capacità dei modelli visione-linguaggio di rispondere in tempo reale a domande su scene reali, dimostrando che, sebbene i modelli attuali siano molto inferiori agli esseri umani, il fine-tuning su questo tipo di dati può colmare significativamente il divario nelle competenze percettive necessarie.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning

Il paper propone un metodo innovativo per l'apprendimento incrementale di nuove classi con pochi esempi, ispirato all'analogia umana, che genera pesi per le nuove classi senza fine-tuning dei parametri utilizzando un generatore analogico basato su tre moduli specifici, ottenendo risultati superiori rispetto agli stati dell'arte su diversi dataset.

Jizhou Han, Chenhao Ding, Yuhang He + 4 more2026-02-24🤖 cs.AI

Feature Representation Transferring to Lightweight Models via Perception Coherence

Il paper propone un metodo di trasferimento delle rappresentazioni delle caratteristiche verso modelli leggeri basato sulla "coerenza percettiva", una nuova nozione probabilistica che permette allo studente di imitare la percezione del docente preservando il ranking delle dissimilarità piuttosto che la geometria assoluta, ottenendo prestazioni superiori o paragonabili ai metodi esistenti.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding

Il paper introduce U2-BENCH, il primo benchmark completo per valutare le capacità dei grandi modelli visione-linguaggio nell'interpretazione delle immagini ecografiche attraverso 8 compiti clinici e 7.241 casi, rivelando che, sebbene le prestazioni nella classificazione siano promettenti, restano sfide significative nel ragionamento spaziale e nella generazione di linguaggio clinico.

Anjie Le, Henan Liu, Yue Wang + 18 more2026-02-24🤖 cs.LG

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

Il paper presenta TEMU-VTOFF, un nuovo framework basato su un'architettura dual DiT potenziata da meccanismi di attenzione multimodale e testuali che risolve le ambiguità visive e preserva i dettagli per generare immagini di prodotto standardizzate a partire da foto di persone vestite, superando le limitazioni degli approcci esistenti e raggiungendo prestazioni state-of-the-art.

Davide Lobba, Fulvio Sanguigni, Bin Ren + 3 more2026-02-24💻 cs

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Questo articolo introduce la "Perception Characteristics Distance" (PCD), una nuova metrica che valuta la stabilità e la robustezza dei sistemi di guida autonoma considerando l'incertezza stocastica degli algoritmi di percezione, e convalida il suo approccio tramite il dataset "SensorRainFall" raccolto in diverse condizioni meteorologiche e di illuminazione.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat