DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning
O artigo apresenta o DVLA-RL, um novo método de aprendizado com poucos exemplos que utiliza alinhamento semântico de linguagem e visão em dois níveis, combinado com um mecanismo de atenção acionado por aprendizado por reforço, para alcançar desempenho superior ao estado da arte em nove benchmarks ao integrar dinamicamente atributos de baixo nível e descrições de alto nível.