The Bayesian Geometry of Transformer Attention
O artigo "The Bayesian Geometry of Transformer Attention" demonstra que, em ambientes controlados chamados "túneis de vento bayesianos", os transformadores realizam inferência bayesiana com alta precisão através de um mecanismo geométrico específico envolvendo o alinhamento progressivo de chaves e consultas e uma variedade de valores de baixa dimensão, estabelecendo uma separação arquitetônica clara em relação a MLPs e oferecendo uma base para conectar sistemas pequenos verificáveis a fenômenos de raciocínio em grandes modelos de linguagem.