OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence
El artículo presenta OneVision-Encoder, un modelo que alinea la arquitectura de visión con los principios de compresión de los códecs mediante una escasez de parches coordinada, logrando así una mayor eficiencia y precisión en la comprensión multimodal al centrarse exclusivamente en las regiones de alta entropía de la información.