Evaluating Graphical Perception Capabilities of Vision Transformers
Este estudio evalúa las capacidades de percepción gráfica de los Vision Transformers (ViT) comparándolos con las CNN y humanos en tareas basadas en los fundamentos de Cleveland y McGill, revelando que, aunque los ViT son potentes en visión general, su alineación con la percepción humana en el ámbito de la visualización es limitada.