A Mixed Diet Makes DINO An Omnivorous Vision Encoder
Il paper propone un nuovo framework per un "encoder visivo onnivoro" che, attraverso un obiettivo di distillazione e allineamento modale, risolve il disallineamento delle rappresentazioni di modelli come DINOv2, permettendo loro di generare embedding coerenti e potenti indipendentemente dalla modalità di input (RGB, profondità, segmentazione, ecc.).