Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers
Este artigo propõe um quadro teórico baseado na complexidade de Kolmogorov para objetivos de comprimento de descrição assintoticamente ótimos em Transformers, demonstrando sua existência teórica e viabilidade prática através de um objetivo variacional que, embora promova a generalização e compressão, enfrenta desafios significativos de otimização.