Learning Multi-Modal Prototypes for Cross-Domain Few-Shot Object Detection
El artículo presenta LMP, un detector de doble rama que logra un estado del arte en la detección de objetos con pocos ejemplos entre dominios al combinar la guía semántica de modelos visión-idioma con prototipos visuales aprendidos dinámicamente del dominio objetivo para capturar tanto la invariancia semántica como los detalles visuales específicos.