Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training
El artículo presenta Vision-TTT, un nuevo modelo de visión que integra el entrenamiento en tiempo de prueba (TTT) con estrategias bidireccionales y módulos convolucionales para lograr representaciones visuales eficientes y expresivas que superan a los Transformers de visión tradicionales en precisión, velocidad y uso de memoria.