cs.CV articoli | Gist.Science

SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

Il paper propone SpHOR, un metodo di apprendimento rappresentativo che migliora il riconoscimento in scenari open-set attraverso embedding di etichette ortogonali, vincoli sferici e tecniche di regolarizzazione, ottenendo risultati all'avanguardia su diversi benchmark.

Nadarasar Bahavan, Sachith Seneviratne, Saman Halgamuge2026-02-24💻 cs

PSGait: Gait Recognition using Parsing Skeleton

Il paper presenta PSGait, un framework innovativo che combina lo scheletro di parsing con i contorni per migliorare l'accuratezza e l'efficienza del riconoscimento dell'andatura in scenari reali, superando i metodi esistenti con minori risorse computazionali.

Hangrui Xu, Zhengxian Wu, Chuanrui Zhang + 4 more2026-02-24💻 cs

VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning

Il paper introduce VideoMind, un agente video-linguistico innovativo che utilizza un flusso di lavoro basato su ruoli e un meccanismo Chain-of-LoRA per migliorare il ragionamento temporale e la capacità di fornire risposte fondate su evidenze visive nei video.

Ye Liu, Kevin Qinghong Lin, Chang Wen Chen + 1 more2026-02-24🤖 cs.AI

ShapeShift: Text-to-Mosaic Synthesis via Semantic Phase-Field Guidance

Il paper presenta ShapeShift, un metodo che utilizza la guida semantica dei modelli di diffusione per risolvere le sovrapposizioni tra oggetti rigidi in modo anisotropo e semanticamente coerente, generando così mosaici che rispettano sia la validità fisica che il concetto visivo descritto dal testo.

Vihaan Misra, Peter Schaldenbrand, Jean Oh2026-02-24💻 cs

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Questo lavoro introduce il dataset e il benchmark Qualcomm Interactive Video Dataset (IVD) per valutare le capacità dei modelli visione-linguaggio di rispondere in tempo reale a domande su scene reali, dimostrando che, sebbene i modelli attuali siano molto inferiori agli esseri umani, il fine-tuning su questo tipo di dati può colmare significativamente il divario nelle competenze percettive necessarie.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning

Il paper propone un metodo innovativo per l'apprendimento incrementale di nuove classi con pochi esempi, ispirato all'analogia umana, che genera pesi per le nuove classi senza fine-tuning dei parametri utilizzando un generatore analogico basato su tre moduli specifici, ottenendo risultati superiori rispetto agli stati dell'arte su diversi dataset.

Jizhou Han, Chenhao Ding, Yuhang He + 4 more2026-02-24🤖 cs.AI

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Il paper introduce JavisDiT, un modello Transformer di diffusione congiunto audio-video che garantisce una generazione sincronizzata di alta qualità attraverso un meccanismo di priorizzazione spaziotemporale gerarchica (HiST-Sypo) e un nuovo benchmark chiamato JavisBench.

Kai Liu, Wei Li, Lai Chen + 8 more2026-02-24⚡ eess

Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

Il paper introduce STEP, un metodo di probing leggero che incorpora l'ordine temporale tramite codifiche posizionali e un meccanismo di attenzione semplificato, superando sia il probing convenzionale che le tecniche di fine-tuning più pesanti nel riconoscimento di azioni quasi simmetriche per l'interazione uomo-robot.

Thinesh Thiyakesan Ponbagavathi, Alina Roitberg2026-02-24💻 cs

Noise-Aware Generalization: Robustness to In-Domain Noise and Out-of-Domain Generalization

Il paper propone DL4ND, il primo metodo diretto per la Generalizzazione Consapevole del Rumore (NAG), che sfrutta la variazione dei campioni rumorosi attraverso diversi domini per superare i limiti delle tecniche esistenti e ottenere prestazioni superiori su sette dataset diversi.

Siqi Wang, Aoming Liu, Bryan A. Plummer2026-02-24🤖 cs.LG

nnLandmark: A Self-Configuring Method for 3D Medical Landmark Detection

Il paper presenta nnLandmark, un framework autoconfigurante basato su nnU-Net che automatizza la rilevazione di landmark medici 3D, offrendo prestazioni all'avanguardia, facilità d'uso senza necessità di tuning manuale e un ambiente standardizzato per il benchmarking e il confronto equo tra i metodi.

Alexandra Ertl, Stefan Denner, Robin Peretzke + 8 more2026-02-24💻 cs

Not All Pixels Are Equal: Confidence-Guided Attention for Feature Matching

Il paper propone un metodo di matching delle caratteristiche semi-denso che utilizza un'attenzione guidata dalla fiducia per adattivamente potare i pesi e ridimensionare le caratteristiche in base a mappe di fiducia precalcolate, eliminando così il rumore dalle regioni irrilevanti e superando gli approcci esistenti su tre benchmark.

Dongyue Li2026-02-24💻 cs

GRILL: Restoring Gradient Signal in Ill-Conditioned Layers for More Effective Adversarial Attacks on Autoencoders

Il paper presenta GRILL, una tecnica che ripristina i segnali gradiente negli strati mal condizionati degli autoencoder, consentendo attacchi avversariali più efficaci e una valutazione più rigorosa della loro robustezza.

Chethan Krishnamurthy Ramanaik, Arjun Roy, Tobias Callies + 1 more2026-02-24🤖 cs.AI

Feature Representation Transferring to Lightweight Models via Perception Coherence

Il paper propone un metodo di trasferimento delle rappresentazioni delle caratteristiche verso modelli leggeri basato sulla "coerenza percettiva", una nuova nozione probabilistica che permette allo studente di imitare la percezione del docente preservando il ranking delle dissimilarità piuttosto che la geometria assoluta, ottenendo prestazioni superiori o paragonabili ai metodi esistenti.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding

Il paper introduce U2-BENCH, il primo benchmark completo per valutare le capacità dei grandi modelli visione-linguaggio nell'interpretazione delle immagini ecografiche attraverso 8 compiti clinici e 7.241 casi, rivelando che, sebbene le prestazioni nella classificazione siano promettenti, restano sfide significative nel ragionamento spaziale e nella generazione di linguaggio clinico.

Anjie Le, Henan Liu, Yue Wang + 18 more2026-02-24🤖 cs.LG

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

Il paper presenta TEMU-VTOFF, un nuovo framework basato su un'architettura dual DiT potenziata da meccanismi di attenzione multimodale e testuali che risolve le ambiguità visive e preserva i dettagli per generare immagini di prodotto standardizzate a partire da foto di persone vestite, superando le limitazioni degli approcci esistenti e raggiungendo prestazioni state-of-the-art.

Davide Lobba, Fulvio Sanguigni, Bin Ren + 3 more2026-02-24💻 cs

Fine-Grained Motion Compression and Selective Temporal Fusion for Neural B-Frame Video Coding

Il paper propone un nuovo codec per la codifica neurale di fotogrammi B che introduce una compressione del moto a grana fine e una fusione temporale selettiva, ottenendo una riduzione del bitrate superiore rispetto agli stati dell'arte e prestazioni paragonabili o migliori rispetto allo standard H.266/VVC.

Xihua Sheng, Peilin Chen, Meng Wang + 3 more2026-02-24⚡ eess

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Questo articolo introduce la "Perception Characteristics Distance" (PCD), una nuova metrica che valuta la stabilità e la robustezza dei sistemi di guida autonoma considerando l'incertezza stocastica degli algoritmi di percezione, e convalida il suo approccio tramite il dataset "SensorRainFall" raccolto in diverse condizioni meteorologiche e di illuminazione.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat

See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis

Questo lavoro dimostra che l'integrazione di immagini di riferimento sane e prompt comparativi nei modelli visione-linguaggio medici, unita a un leggero fine-tuning supervisionato, migliora significativamente le prestazioni diagnostiche e l'efficienza del campione sfruttando il ragionamento comparativo clinico.

Ruinan Jin, Gexin Huang, Xinwei Shen + 3 more2026-02-24💻 cs

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Questo lavoro propone un nuovo framework per la ricostruzione iperspettrale da smartphone che sfrutta un sistema a triple fotocamera con filtri spettrali, introduce il primo dataset dedicato "Doomer" e un modulo di allineamento leggero, ottenendo una precisione spettrale superiore del 30% rispetto alle fotocamere RGB tradizionali e un ulteriore miglioramento del 5% rispetto agli stati dell'arte.

Daniil Reutsky, Daniil Vladimirov, Yasin Mamedov + 4 more2026-02-24💻 cs

Exploring Partial Multi-Label Learning via Integrating Semantic Co-occurrence Knowledge

Il paper propone SCINet, un nuovo framework per l'apprendimento multi-etichetta parziale che integra conoscenze semantiche di co-occorrenza tramite un prompter bi-dominante e una fusione cross-modale per migliorare l'allineamento semantico e le relazioni tra istanze ed etichette, ottenendo risultati superiori rispetto agli stati dell'arte su quattro dataset di riferimento.

Xin Wu, Fei Teng, Yue Feng + 4 more2026-02-24🤖 cs.AI

← Precedente Successivo →