Ego: Embedding-Guided Personalization of Vision-Language Models
O artigo "Ego" propõe um método eficiente de personalização para modelos de linguagem visual que, ao extrair tokens visuais representativos de conceitos específicos por meio dos mecanismos de atenção internos, permite que o modelo reconheça e descreva esses conceitos em novas imagens sem a necessidade de treinamento adicional ou pipelines complexos.