Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models
Ce papier présente FAMDA, un cadre d'adaptation de domaine non supervisé qui exploite les modèles de fondation visuels comme enseignants dans une approche d'auto-entraînement pour générer des étiquettes pseudo de haute qualité, permettant ainsi d'entraîner un réseau étudiant unique, léger et performant pour la prédiction dense multi-tâches dans des environnements robotiques contraints.