Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Naamloze" Foto's: Hoe een Slimme AI Zelf Namen Bedenkt

Stel je voor dat je een enorme doos met foto's krijgt. Op de ene foto staat een heel specifiek type hond, op de andere een heel specifiek type bloem. Het probleem? Er staat geen enkel etiket op de doos. Je weet niet hoe je deze dieren of bloemen moet noemen.

De meeste computerprogramma's voor het herkennen van beelden werken als een strenge leraar. Die leraar heeft een vaste lijst met namen (een "woordenlijst") en zegt: "Als je een hond ziet, moet je kiezen uit: Duitse Herder, Poodle, of Golden Retriever." Als de hond op je foto een Staffordshire Bull Terrier is, maar die naam staat niet op de lijst, dan faalt de computer. Hij kan niet "buiten de lijntjes" kleuren.

Dit artikel introduceert FiNDR, een nieuwe manier om foto's te herkennen zonder zo'n vaste lijst. Het is alsof je een nieuwsgierige, slimme detective (een AI) aan het werk zet die zelf de namen bedenkt.

Hier is hoe het werkt, in drie simpele stappen:

Stap 1: De Detective doet zijn huiswerk (Redeneren)

In plaats van een lijst te raadplegen, kijkt de AI naar een paar voorbeeldfoto's en vraagt zichzelf af: "Wat zie ik hier eigenlijk?"

De Analogie: Stel je voor dat je een expert bent in vogels. Als je een foto ziet van een vogel met een lange snavel, denk je niet direct aan de naam. Eerst denk je: "Oh, dit is een vogel (de grote groep). Het is een soort (de subgroep). En dit specifieke exemplaar lijkt op een 'Nachtzwaluw'."
De AI doet dit ook: De AI gebruikt "redeneren" (net als een mens die nadenkt) om eerst de grote groep te bepalen en dan de specifieke naam te verzinnen. Ze bedenkt dus zelf de namen, zoals "Staffordshire Bull Terrier" of "Zonnebloem", zonder dat iemand ze haar heeft gegeven.

Stap 2: De Kwaliteitscontroleur (Filteren)

Soms bedenkt de detective een naam die niet helemaal klopt, of hij bedenkt twee namen voor hetzelfde ding (bijvoorbeeld "Zonnebloem" en "Helianthus").

De Analogie: Stel je voor dat de detective een lijst met 100 mogelijke namen heeft geschreven. Nu komt er een kwaliteitscontroleur (een andere slimme AI) die elke foto en elke naam naast elkaar houdt.
Het werk: De controleur zegt: "Wacht, deze naam 'Grote Hond' past niet bij deze foto van een Chihuahua. Maar deze naam 'Staffordshire Bull Terrier' past perfect!" Hij verwijdert de slechte namen en houdt alleen de beste, meest accurate namen over.

Stap 3: De Leraar die de klas leidt (Herkenning)

Nu heeft de AI een perfecte lijst met namen die ze zelf heeft bedacht en gecontroleerd.

De Analogie: De AI maakt nu een nieuwe "leraar" aan. Deze leraar kent de namen, maar hij heeft ook de foto's van die namen onthouden.
Het resultaat: Als er nu een nieuwe, onbekende foto binnenkomt, kijkt de AI: "Welke naam uit mijn lijst past het beste bij deze foto?" En hij geeft het antwoord: "Dit is een Staffordshire Bull Terrier!"

Waarom is dit zo speciaal?

Geen vaste lijst nodig: De oude methoden faalden als de naam niet op hun lijst stond. Deze nieuwe AI kan elke naam bedenken die nodig is.
Beter dan de "menselijke" lijst: Het meest verbazingwekkende is dat deze AI beter presteert dan systemen die wel een menselijke lijst hebben. Soms bedenkt de AI een naam die nauwkeuriger is dan de officiële naam in de database (bijvoorbeeld een wetenschappelijke naam in plaats van de gewone naam, of een specifieke variatie).
Open Source: De auteurs laten zien dat je dit niet per se met een dure, betaalde "super-AI" hoeft te doen. Met slimme instructies (prompten) werkt een gratis, open-source AI net zo goed als de dure versies.

Samenvattend

Vroeger moest je een computer een lijst geven met alle mogelijke namen. Vandaag de dag geven we de computer een paar voorbeelden en laten we hem nadenken over wat hij ziet. Hij bedenkt de namen zelf, controleert ze, en gebruikt ze om nieuwe foto's perfect te herkennen.

Het is alsof we de computer niet langer een woordenboek geven, maar hem leren om te spreken over wat hij ziet.

Each language version is independently generated for its own context, not a direct translation.

Titel: Denken voorbij Labels: Woordenschatvrije Gedetailleerde Herkenning met Redenerings-Aangewakkerde LMM's

Auteurs: Dmitry Demidov et al. (Mohamed bin Zayed University of Artificial Intelligence, UAE)

1. Het Probleem

Traditionele gedetailleerde beeldherkenning (fine-grained recognition), zoals het onderscheiden van specifieke vogelsoorten of hondenrassen, is afhankelijk van uitgebreide, door mensen gedefinieerde woordenschriften (vocabulaires). Dit beperkt de generalisatie in "open-world" scenario's waar voorafgaande kennis over de categorieën onvolledig of afwezig is.

Bestaande oplossingen voor woordenschatvrije herkenning (waarbij geen vaste lijst van labels bestaat) hebben grote tekortkomingen:

Clustering-methode: Gebaseerd op visuele features zonder semantische gronding, wat leidt tot onstabiele prestaties bij subtiele verschillen.
Zero-shot met vaste vocabulaires: Vereist nog steeds een grote, vooraf gedefinieerde lijst van mogelijke namen, wat niet werkt als de labels onbekend zijn.
Dynamische woordenschatontdekking: Gebruikt vaak complexe, multi-stap pipelines (bijv. eerst een beeld beschrijven, dan een naam genereren). Deze methoden zijn kwetsbaar voor foutpropagatie tussen de stappen en genereren vaak onnauwkeurige of te generieke attributen.

Het doel is een systeem te bouwen dat visueel vergelijkbare categorieën kan onderscheiden en semantisch betekenisvolle namen kan genereren zonder enige vooraf gedefinieerde lijst van labels of menselijke supervisie.

2. Methodologie: FiNDR Framework

De auteurs stellen FiNDR (Fine-grained Name Discovery via Reasoning) voor, het eerste framework dat gebruikmaakt van redeneringsversterkte Large Multi-modal Models (LMM's) voor deze taak. Het proces verloopt in drie geautomatiseerde stappen:

Stap 1: Woordenschatontdekking via Redenering (Vocabulary Discovery)

In plaats van direct een naam te vragen, gebruikt FiNDR een "Chain-of-Thought"-benadering met een krachtige LMM (Qwen2.5-VL-72B):

Meta-informatie generatie: Het model krijgt een kleine set ongelabelde afbeeldingen en wordt gevraagd om eerst meta-informatie te genereren: de overkoepelende taxonomische groep (bijv. "vogels"), de eenheid van granulariteit (bijv. "soort"), en de naam van een domeinexpert (bijv. "ornitholoog").
Kandidaat-namen generatie: Met deze gefixeerde context wordt elke individuele afbeelding opnieuw ingevoerd. Het model wordt nu gevraagd om een unieke, gedetailleerde klasse-naam te genereren, wetende dat het moet fungeren als een expert.
Post-processing: De ruwe output wordt gestandaardiseerd (spelling, hoofdletters, meervoud) en onbruikbare of te generieke strings worden verwijderd.

Stap 2: Verfijning van Klassennamen (Class Names Refinement)

De gegenereerde lijst van namen kan nog fouten of irrelevante items bevatten.

Een Vision-Language Model (VLM, specifiek CLIP) wordt gebruikt om de tekstuele embeddings van de kandidaat-namen te vergelijken met de visuele features van de dataset.
Een relevantiescore wordt berekend op basis van de gemiddelde cosinus-ähnelijkheid.
Alleen de hoogst scorende namen worden behouden, wat resulteert in een verfijnde woordenschat ( $\tilde{C}^*$ ).

Stap 3: Koppeling van Visuele en Taalmodaliteiten (Modalities Coupling)

Om een robuuste classifier te bouwen die niet alleen vertrouwt op de (mogelijk onnauwkeurige) gegenereerde namen:

Voor elke verfijnde naam wordt een tekst-prototype gemaakt.
Voor elke klasse worden visuele prototypes gemaakt door de afbeeldingen in de dataset te pseudo-labelen en te middelen (met augmentatie).
Deze twee prototypes worden samengevoegd tot één Vision-Language Classifier ( $W_{VL}$ ) via een lineaire combinatie:
$W_{VL}(c) = \alpha \cdot t_c + (1 - \alpha) \cdot v_c$
Waarbij $\alpha$ (vastgesteld op 0.7) de weging bepaalt tussen tekst en visie. Dit zorgt ervoor dat het model de visuele consistentie behoudt zelfs als de gegenereerde naam niet perfect is.

Inferentie

Tijdens het testen wordt een nieuwe afbeelding vergeleken met de samengevoegde prototypes. De uitkomst is een menselijk leesbare, semantische naam in plaats van een numerieke index.

3. Belangrijkste Bijdragen

Eerste Redenerings-Aangewakkerde Framework: FiNDR is het eerste systeem dat expliciete redenering (Chain-of-Thought) in LMM's gebruikt voor woordenschatvrije gedetailleerde herkenning.
State-of-the-Art Prestaties: Het framework behaalt nieuwe records op vijf populaire benchmarks (o.a. CUB-200, Stanford Dogs, Oxford Pets) zonder enige voorafgaande kennis.
Overtreffen van de "Upper Bound": Opmerkelijk is dat FiNDR zelfs presteert boven zero-shot baselines die gebruikmaken van de ware ground-truth namen als vocabulaire. Dit weerlegt de aanname dat menselijk gecureerde lijsten de onbereikbare bovengrens vormen.
Open-Source vs. Propriëtaire Modellen: Het paper toont aan dat met zorgvuldig ontworpen prompts, open-source LMM's (zoals Qwen2.5-VL) de prestaties van gesloten, proprietary modellen (zoals Gemini) kunnen evenaren of zelfs overtreffen, zonder toegang tot betaalde diensten.

4. Resultaten

Prestaties: FiNDR verbetert de gemiddelde Clustering Accuracy (cACC) met +9.5% en de Semantische Accuracy (sACC) met +4.3% ten opzichte van de vorige state-of-the-art methode (E-FineR).
Specifieke Winst: Op de Oxford Pets dataset werd een relatieve verbetering van 18.8% in cACC bereikt.
Kwaliteit van Labels: Kwalitatieve analyses tonen aan dat FiNDR nauwkeurigere en specifiekere rassen/soorten identificeert (bijv. "Egyptian Mau" in plaats van generieke "Cat") vergeleken met eerdere methoden die vaak fouten propageren.
Ablatie Studies:
- Het gebruik van meta-informatie en expert-prompting verbetert de prestaties aanzienlijk.
- De combinatie van visie en tekst (via $\alpha=0.7$ ) is cruciaal voor robustheid; het model blijft goed presteren zelfs als 50% van de gegenereerde namen onjuist is.

5. Betekenis en Conclusie

Dit onderzoek markeert een paradigmaverschuiving in gedetailleerde beeldherkenning. Het bewijst dat:

Menselijk gecureerde vocabulaires niet noodzakelijk de optimale oplossing zijn; AI kan zelf effectieve, semantisch rijke labels ontdekken.
Redeneringsversterkte LMM's in staat zijn tot volledig geautomatiseerde, schaalbare open-world herkenning zonder menselijke tussenkomst.
De kloof tussen open-source en proprietary modellen kan worden overbrugd door slimme prompt-engineering, waardoor geavanceerde visuele AI toegankelijker wordt.

De broncode is beschikbaar op GitHub, wat de reproduceerbaarheid en verdere ontwikkeling van deze aanpak faciliteert.