MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Die Autoren stellen den MOO-Datensatz vor, eine groß angelegte synthetische AG-ReID-Datenbank mit 128.000 annotierten Bildern von 1.000 Rindern aus 128 Blickwinkeln, die es ermöglicht, den Einfluss der Elevationsänderung zu quantifizieren und durch synthetische geometrische Priors die Leistung von Tier-ReID-Modellen in realen Szenarien zu verbessern.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

Die Arbeit stellt SPRINT vor, das erste halbüberwachte Few-Shot Class-Incremental-Learning-Framework für tabellarische Daten, das durch eine Mischung aus episodischem Training und pseudo-labeling-basierter Erweiterung neuer Klassenrepräsentationen sowie die Nutzung von Speicherplatz für historische Daten einen neuen State-of-the-Art in der domänenübergreifenden Genauigkeit erreicht.

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

Die Studie stellt einen skalierbaren Evaluierungsrahmen vor, der zeigt, dass generative KI-Modelle bei der realistischen Simulation von Umweltbedingungen wie Nebel, Regen und Nacht in Fahrzeugkameras deutlich besser abschneiden als regelbasierte Ansätze und damit eine praktikable Grundlage für die Erstellung synthetischer Testdaten bilden.

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

Der Artikel stellt FocusGraph vor, ein Framework zur Auswahl relevanter Schlüsselbilder aus langen Egocentric-Videos für die Beantwortung von Fragen mittels multimodaler LLMs, das durch einen trainierbaren Szenen-Caption-Selektor und eine trainingsfreie Patch-basierte Methode sowohl die Genauigkeit als auch die Effizienz im Vergleich zu bestehenden Ansätzen verbessert.

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Das Paper stellt TaxonRL vor, eine Reinforcement-Learning-Methode mit intermediären Belohnungen, die durch hierarchische taxonomische Vorhersagen nicht nur die Genauigkeit bei der feingranularen visuellen Unterscheidung ähnlicher Arten übertrifft, sondern auch transparente und interpretierbare Schlussfolgerungsprozesse ermöglicht.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

Die Arbeit stellt MULAN vor, das erste Modell zur multimodalen Integration menschlicher Aufmerksamkeitsmuster in neuronale Netzwerke für das Visual Question Answering, das durch die Kombination von Bild- und Text-Salienzmodellen mit einem Transformer-basierten Ansatz sowohl einen neuen State-of-the-Art auf dem VQAv2-Datensatz erreicht als auch die Anzahl der trainierbaren Parameter im Vergleich zu früheren Arbeiten um etwa 80 % reduziert.

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Die Studie demonstriert, dass vortrainierte Vision-Foundation-Modelle, insbesondere BiomedCLIP, als vielseitige und trainingsfreie Feature-Extraktoren für die inhaltsbasierte Bildwiedergewinnung in der Radiologie eingesetzt werden können und dabei auf einem Datensatz von 1,6 Millionen Bildern eine mit spezialisierten Systemen vergleichbare Leistung erzielen.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs