Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs
Il paper presenta FiNDR, il primo framework basato su modelli linguistici multimodali potenziati dal ragionamento per il riconoscimento fine-granularità senza vocabolario, che supera le prestazioni degli approcci precedenti e delle basi zero-shot utilizzando ground-truth predefiniti.