Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs
이 논문은 고정된 어휘 집합 없이 시각적으로 유사한 하위 범위를 식별하는 문제를 해결하기 위해 추론 기능을 강화한 대규모 멀티모달 모델을 활용한 'FiNDR' 프레임워크를 제안하며, 기존 방법론보다 뛰어난 성능을 입증하고 인간이 정의한 어휘가 성능의 상한선이 아니라는 것을 보여줍니다.