Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models
Este artículo presenta FAMDA, un marco de adaptación de dominio no supervisado que aprovecha modelos fundacionales de visión en un paradigma de auto-entrenamiento para generar pseudoetiquetas de alta calidad, permitiendo entrenar redes estudiantas ligeras y eficientes que alcanzan un rendimiento de vanguardia en tareas de predicción densa multiobjetivo para aplicaciones robóticas.