Face Pyramid Vision Transformer

Il documento propone il Face Pyramid Vision Transformer (FPVT), una nuova architettura che integra meccanismi di riduzione spaziale e dimensionale con un embedding di patch migliorato e una rete feed-forward convoluzionale per estrarre rappresentazioni facciali discriminative multi-scala, ottenendo prestazioni eccellenti su diversi benchmark con un numero ridotto di parametri rispetto agli stati dell'arte esistenti.

Khawar Islam, Muhammad Zaigham Zaheer, Arif Mahmood2026-02-24💻 cs

Deep-Learning-Based Markerless Pose Estimation Systems in Gait Analysis: DeepLabCut Custom Training and the Refinement Function

Questo studio dimostra che un sistema di stima della posa senza marcatori basato su DeepLabCut addestrato su misura e affinato con la funzione di raffinamento supera le prestazioni dei modelli pre-addestrati e di OpenPose, offrendo una soluzione economica e precisa per l'analisi del cammino in ambienti naturali.

Giulia Panconi, Stefano Grasso, Sara Guarducci + 3 more2026-02-24💻 cs

SAMRI-2: A Memory-based Model for Cartilage and Meniscus Segmentation in 3D MRIs of the Knee Joint

Questo studio presenta SAMRI-2, un modello di visione artificiale basato sulla memoria e arricchito da una strategia di mescolamento ibrida, che supera le prestazioni degli attuali metodi di segmentazione per la cartilagine e il menisco nelle risonanze magnetiche 3D del ginocchio, garantendo alta precisione con un ridotto sforzo di annotazione.

Danielle L. Ferreira, Bruno A. A. Nunes, Xuzhe Zhang + 3 more2026-02-24⚡ eess