ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging
Die Arbeit stellt ZACH-ViT vor, einen kompakten Vision Transformer ohne Positionscodierung und [CLS]-Token, der durch permutationsinvariante Verarbeitung und globale Durchschnittspooling in datenarmen medizinischen Bildgebungsszenarien regimeabhängige Vorteile zeigt, insbesondere bei Datensätzen mit schwachen räumlichen Priors.