Face Pyramid Vision Transformer
Il documento propone il Face Pyramid Vision Transformer (FPVT), una nuova architettura che integra meccanismi di riduzione spaziale e dimensionale con un embedding di patch migliorato e una rete feed-forward convoluzionale per estrarre rappresentazioni facciali discriminative multi-scala, ottenendo prestazioni eccellenti su diversi benchmark con un numero ridotto di parametri rispetto agli stati dell'arte esistenti.