Scaling Dense Event-Stream Pretraining from Visual Foundation Models
Cet article présente une méthode d'apprentissage auto-supervisé innovante qui distille des modèles visuels de fondation pour surmonter les défis de l'annotation et améliorer la représentation dense des flux d'événements visuels grâce à une perte d'alignement structurel.