Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs
O artigo apresenta o FiNDR, um novo framework baseado em Grandes Modelos Multimodais (LMMs) aprimorados por raciocínio que alcança reconhecimento visual de categorias finas sem vocabulário pré-definido, superando os métodos existentes e demonstrando que a descoberta automática de nomes pode superar o uso de vocabulários humanos curados.