A Mixed Diet Makes DINO An Omnivorous Vision Encoder
O artigo propõe o "Omnivorous Vision Encoder", um novo quadro de aprendizado que alinha representações de diferentes modalidades (como RGB e profundidade) em um espaço de características comum, preservando a semântica discriminativa de modelos fundacionais como o DINOv2 através de um processo de distilação e alinhamento cruzado.