LVLM-COUNT: Enhancing the Counting Ability of Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Zähler", der bei großen Zahlen die Fassung verliert

Stellen Sie sich vor, Sie haben einen sehr intelligenten Roboter-Assistenten (einen sogenannten LVLM – ein großes Bild-Sprach-Modell). Dieser Roboter kann Bilder sehen und Fragen dazu beantworten. Er ist brillant darin, Dinge zu erkennen: „Das ist ein Hund", „Das ist ein Auto".

Aber wenn Sie ihn bitten, zu zählen, wird er schnell nervös.

„Wie viele Äpfel sind da?" – Wenn es 3 sind, sagt er: „Drei!" (Perfekt).
„Wie viele Äpfel sind da?" – Wenn es 50 sind, wird er verwirrt. Er rät vielleicht 42 oder 60.
Wenn es 200 Äpfel sind, gibt er oft einfach auf oder macht einen riesigen Fehler.

Warum? Weil das Gehirn des Roboters (das KI-Modell) so trainiert ist, dass es das ganze Bild auf einmal betrachtet. Bei vielen kleinen Dingen wird das Bild einfach zu voll, und der Roboter verliert den Überblick. Es ist, als würde man versuchen, 1000 Sandkörner auf einmal zu zählen, ohne sie zu bewegen.

Die Lösung: LVLM-Count – Der „Teile-und-Herrsche"-Ansatz

Die Forscher haben eine clevere Lösung namens LVLM-Count entwickelt. Statt den Roboter zu zwingen, das ganze Chaos auf einmal zu bewältigen, teilen sie das Problem auf.

Stellen Sie sich vor, Sie müssen eine riesige Party mit 500 Gästen zählen.

Der naive Ansatz: Sie stehen in der Mitte des Raumes und versuchen, alle 500 Köpfe auf einmal zu zählen. Sie werden sich verirren.
Der LVLM-Count-Ansatz: Sie teilen den Raum in kleine, übersichtliche Ecken auf. Sie schicken einen Helfer in jede Ecke, lassen ihn die Leute dort zählen und addieren die Zahlen am Ende zusammen.

Das klingt einfach, aber es gibt ein großes Problem bei dieser Methode:
Wenn Sie den Raum einfach mit geraden Linien in Ecken teilen (wie ein Schachbrett), schneiden Sie oft Gäste mitten durch!

Szenario: Ein Gast steht genau auf der Trennlinie. Der Helfer in Ecke A sieht den Kopf und zählt „1". Der Helfer in Ecke B sieht die Beine und zählt auch „1".
Ergebnis: Sie haben denselben Gast doppelt gezählt. Das nennt man „Doppelzählung".

Der Trick: „Objekt-bewusste" Trennung

Hier kommt der geniale Teil von LVLM-Count ins Spiel. Die Forscher haben eine Art „unsichtbare Schutzmauer" eingebaut.

Der Sucher (Grounding & Segmentation): Bevor geteilt wird, schaut sich der Roboter das Bild genau an und markiert jeden einzelnen Gegenstand (z. B. jeden Apfel oder jeden Pinguin) mit einer unsichtbaren Hülle (einer Maske). Er weiß also genau, wo die Objekte sind.
Der Wegfinder (A-Algorithmus):* Jetzt muss der Roboter Linien ziehen, um das Bild zu teilen. Aber er darf niemals durch eine dieser Hüllen schneiden.
- Die Analogie: Stellen Sie sich vor, die Objekte sind Felsen in einem Fluss. Sie müssen einen Weg von links nach rechts bauen, um den Fluss zu teilen, aber Sie dürfen keine Felsen durchschneiden. Der Roboter nutzt einen cleveren Wegfinder-Algorithmus (ähnlich wie bei GPS), der den Weg um die Felsen herumfindet.
- Die Trennlinien schlängeln sich also geschickt zwischen den Objekten hindurch, wie ein Fluss, der um Steine fließt.

Der Ablauf in 4 Schritten (Die „Rezeptur")

Ziel finden: Der Roboter liest die Frage („Wie viele braune Eier?") und sucht im Bild nur den Bereich, wo Eier sein könnten. Alles andere wird ignoriert.
Objekte markieren: Er zeichnet unsichtbare Umrisse um jedes Ei.
Sicheres Teilen: Er zieht Linien durch das Bild, aber diese Linien weichen aus, wenn sie auf ein Ei treffen. Kein Ei wird geteilt.
Zählen und Addieren: Der Roboter schickt die kleinen, übersichtlichen Bildstücke an den KI-Assistenten. Dieser zählt in jedem Stück leicht die Eier. Am Ende werden alle kleinen Zahlen addiert.

Warum ist das so wichtig?

Die Forscher haben gezeigt, dass diese Methode funktioniert, egal ob man GPT-4o (den teuersten, bekanntesten KI-Assistenten) oder günstigere, offene Modelle verwendet.

Bessere Ergebnisse: Bei schwierigen Bildern (viele überlappende Pinguine, tausende Bäume im Wald) verbessert sich die Genauigkeit drastisch.
Kein neues Training nötig: Man muss den Roboter nicht neu programmieren oder mit neuen Daten füttern. Man gibt ihm einfach eine neue „Anleitung" (den Prozess), wie er das Bild betrachten soll.
Alltagstauglich: Das ist super für echte Probleme: Zählen von Zellen im Labor, Lagerbestände in einer Fabrik oder Vögel in der Natur, wo es oft zu viele Objekte gibt, um sie auf einen Blick zu erfassen.

Fazit

LVLM-Count ist wie ein erfahrener Teamleiter, der weiß: „Wenn die Aufgabe zu groß ist, teilen wir sie auf – aber wir achten darauf, dass niemand in der Mitte geteilt wird." Durch diesen einfachen, aber cleveren Trick werden die KI-Modelle zu echten Zähl-Meistern, auch bei großen Mengen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Zählen von Objekten ist eine fundamentale Aufgabe in der Computer Vision mit Anwendungen in Industrie, Gesundheitswesen und Umweltmonitoring. Obwohl Large Vision-Language Models (LVLMs) wie GPT-4o über beeindruckende visuelle Wahrnehmungsfähigkeiten und Zero-Shot-Erkennung verfügen, zeigen sie signifikante Schwächen bei numerischen Aufgaben, insbesondere beim Zählen.

Die Autoren beobachten, dass LVLMs zwar bei kleinen Objektmengen (typischerweise unter 20) akkurate Ergebnisse liefern, ihre Genauigkeit jedoch drastisch abnimmt, sobald die Anzahl der Objekte steigt. Herkömmliche Zählmodelle sind oft auf spezifische Klassen trainiert oder benötigen visuelle Beispiele (Exemplare), was ihre Generalisierungsfähigkeit einschränkt. Zudem neigen naive Ansätze, Bilder einfach in Teilbilder zu zerlegen, dazu, Objekte zu zerschneiden, was zu Doppelzählungen führt.

2. Methodik: LVLM-Count

Um diese Herausforderungen zu lösen, schlagen die Autoren LVLM-Count vor, eine einfache, aber effektive Baseline-Methode, die das Zählvermögen von LVLMs ohne zusätzliches Training (Zero-Shot) verbessert. Der Ansatz basiert auf einem „Teile-und-Herrsche"-Prinzip (Divide-and-Conquer), das jedoch durch einen objektbewussten Zerlegungsmechanismus (Object-aware Division) erweitert wird, um das Zerschneiden von Objekten zu verhindern.

Der Workflow besteht aus vier Hauptphasen:

Flächenerkennung (Area Detection):
- Aus der Eingabe-Frage (z. B. „Wie viele braune Eier sind im Bild?") wird mittels eines LLMs der relevante Objektbegriff (Expression $E$ , z. B. „braune Eier") extrahiert.
- Ein Grounding-Modell (z. B. GroundingDINO) lokalisiert die Bereiche im Bild, die $E$ enthalten, und erstellt Bounding Boxes. Überlappende Boxen werden zusammengeführt, um den relevanten Bildausschnitt zu croppen.
Ziel-Segmentierung (Target Segmentation):
- Der gecroppte Bereich wird erneut durch ein Open-World-Detektionsmodell (GroundingDINO) und ein Segmentierungsmodell (SAM - Segment Anything) geschickt.
- Ziel ist die Erstellung von Instanz-Masken für die Objekte von Interesse.
- Post-Processing: Um Überlappungen und Unsicherheiten zu reduzieren, werden Nicht-Maximum-Suppression (NMS) und eine Erosionsfunktion angewendet, um einen Mindestabstand zwischen den Masken zu gewährleisten. Dies ist entscheidend für die nachfolgende Pfadfindung.
Objektbewusste Zerlegung (Object-aware Division):
- Dies ist der Kerninnovationsschritt. Anstatt das Bild in gleich große Rechtecke zu teilen, wird der Bildausschnitt so in Teilbilder unterteilt, dass keine Maske (Objekt) durch die Trennlinien geschnitten wird.
- Pfadfindung: Die Trennlinien werden als Pfadfindungsproblem modelliert. Die Masken werden als schwarze Hindernisse in einem binären Bild dargestellt, der Rest als weißer Freiraum.
- Ein A-Suchalgorithmus* findet optimale Pfade von einer Bildkante zur anderen, die die Hindernisse (Objekte) umgehen. Die Start- und Endpunkte der Pfade werden durch Clustering der Masken-Positionen (Mean-Shift) automatisch bestimmt.
- Das Ergebnis sind Teilbilder, die jeweils ganze Objekte enthalten.
Ziel-Zählung (Target Counting):
- Jedes Teilbild wird zusammen mit der ursprünglichen Frage an das LVLM gesendet, um die Anzahl der Objekte in diesem Teilbild zu ermitteln.
- Die Ergebnisse aller Teilbilder werden aggregiert, um die endgültige Gesamtzahl zu erhalten.

3. Wichtige Beiträge

LVLM-Count Pipeline: Eine plug-and-play Methode, die die Zählleistung beliebiger LVLMs verbessert, ohne dass diese neu trainiert werden müssen. Sie behält die Zero-Shot-Fähigkeiten bei, adressiert aber das Problem der großen Objektzahlen.
Objektbewusste Zerlegung: Ein Mechanismus, der verhindert, dass Objekte durch die Zerlegungslinien geschnitten werden, was ein häufiges Problem bei naiven Divide-and-Conquer-Ansätzen ist und zu Doppelzählungen führt.
Robustheit: Die Methode ist robust gegenüber Ungenauigkeiten in den früheren Stufen (Detektion und Segmentierung). Selbst wenn das Detektionsmodell fehlerhafte Masken liefert, führt die nachfolgende Zählung durch das LVLM zu korrekten Ergebnissen, da das LVLM die Objekte visuell bestätigt.
Neuer Benchmark (Emoji-Count): Die Autoren stellen einen neuen, herausfordernden Benchmark vor, der das Zählen von Emoji-Icons mit subtilen intra-klassen-Variationen testet, um komplexe reasoning-Fähigkeiten zu evaluieren.
Umfassende Evaluation: Der Ansatz wurde auf mehreren Datensätzen (FSC-147, PASCAL VOC, Penguin Dataset, Emoji-Count) getestet und zeigt konsistente Verbesserungen.

4. Ergebnisse

Die Experimente belegen die Überlegenheit von LVLM-Count gegenüber reinen LVLMs und spezialisierten Zählmodellen in verschiedenen Szenarien:

FSC-147 & PASCAL VOC: LVLM-Count reduziert den Mean Absolute Error (MAE) signifikant. Beispielsweise sank der MAE bei GPT-4o auf dem FSC-147-Testset von 25,57 auf 17,86. Interessanterweise übertrafen Open-Source-Modelle (wie Qwen2 VL und Gemma 3) in Kombination mit LVLM-Count sogar das Basis-GPT-4o.
Emoji-Count: Auf diesem komplexen Benchmark, der feine Unterscheidungen erfordert, zeigten spezialisierte Trainingsmodelle (wie GroundingREC) starke Leistungseinbußen, während LVLM-Count die Leistung aller getesteten LVLMs drastisch verbesserte (z. B. Reduktion des MAE bei Qwen2 von 78,05 auf 24,43).
Penguin-Dataset (Hohe Okklusion): Selbst bei stark überlappenden Objekten und komplexen Hintergründen (Pinguine) konnte LVLM-Count die Zählfehler deutlich reduzieren, was die Robustheit des Ansatzes unterstreicht.
Vergleich mit SOTA: Während spezialisierte, trainierte Modelle auf ihren Trainingsdaten oft besser abschneiden, zeigt LVLM-Count eine überlegene Generalisierungsfähigkeit auf Out-of-Distribution-Daten und komplexen Fragen.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Schwäche von LVLMs beim Zählen großer Mengen nicht in ihrer visuellen Wahrnehmung, sondern in der direkten Verarbeitung des gesamten Bildes liegt. Durch die Zerlegung des Problems in handhabbare Teilprobleme unter Wahrung der Objektintegrität kann das inhärente Wissen der LVLMs effektiv genutzt werden.

LVLM-Count ist ein wichtiger Schritt hin zu zuverlässigeren multimodalen Systemen für industrielle und wissenschaftliche Anwendungen, bei denen präzises Zählen in komplexen Umgebungen erforderlich ist. Die Methode ist universell einsetzbar, erfordert kein spezifisches Training und bietet einen neuen Standard für die Evaluation von Zählalgorithmen in der Open-World-Umgebung.

LVLM-COUNT: Enhancing the Counting Ability of Large Vision-Language Models

Das Problem: Der „Zähler", der bei großen Zahlen die Fassung verliert

Die Lösung: LVLM-Count – Der „Teile-und-Herrsche"-Ansatz

Der Trick: „Objekt-bewusste" Trennung

Der Ablauf in 4 Schritten (Die „Rezeptur")

Warum ist das so wichtig?

Fazit

1. Problemstellung

2. Methodik: LVLM-Count

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning