Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Die Arbeit stellt eine Retrieval-augmentierte Testzeit-Adapter-Methode vor, die durch die Kombination von Textprompts mit wenigen pixelgenau annotierten Beispielen die Lücke zwischen zero-shot und vollüberwachter Open-Vocabulary-Segmentierung schließt, indem sie einen leichten, pro-Bild-Klassifikator durch gelerntes multimodales Fusionieren trainiert.

Tilemachos Aravanis, Vladan Stojnić, Bill Psomas + 2 more2026-02-27💻 cs

Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments

Diese Studie stellt einen visionbasierten Rahmen zur Verfolgung von Objekten für unbemannte Wasserfahrzeuge vor, der durch einen Benchmark von sieben Deep-Learning-Trackern und Regelalgorithmen auf simulierten und realen Daten zeigt, dass der Transformer-basierte SeqTrack-Tracker in Kombination mit einem LQR-Regler die robusteste Leistung in komplexen maritimen Umgebungen erzielt.

Muhayy Ud Din, Ahsan B. Bakht, Waseem Akram + 3 more2026-02-26💻 cs

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

Die Arbeit stellt OC-STORM vor, ein objektszentriertes modellbasiertes Reinforcement-Learning-Framework, das durch die Nutzung weniger annotierter Frames und vortrainierter Segmentierungsnetzwerke die Probeneffizienz in komplexen visuellen Umgebungen erheblich verbessert und dabei den STORM-Baseline sowie den aktuellen Stand der Technik übertrifft.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Die Arbeit stellt VOILA vor, einen neuen Benchmark zur Evaluierung der Fähigkeit von multimodalen Sprachmodellen, abstrakte analoge Beziehungen zwischen Bildern zu erkennen, und zeigt, dass diese Modelle trotz menschlicher Überlegenheit bei der relationalen reasoning noch erhebliche Schwierigkeiten haben, die jedoch durch schrittweise Prompting-Strategien verbessert werden können.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo + 4 more2026-02-26💬 cs.CL