Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments

Diese Studie stellt einen visionbasierten Rahmen zur Verfolgung von Objekten für unbemannte Wasserfahrzeuge vor, der durch einen Benchmark von sieben Deep-Learning-Trackern und Regelalgorithmen auf simulierten und realen Daten zeigt, dass der Transformer-basierte SeqTrack-Tracker in Kombination mit einem LQR-Regler die robusteste Leistung in komplexen maritimen Umgebungen erzielt.

Muhayy Ud Din, Ahsan B. Bakht, Waseem Akram + 3 more2026-02-26💻 cs

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

Die Arbeit stellt OC-STORM vor, ein objektszentriertes modellbasiertes Reinforcement-Learning-Framework, das durch die Nutzung weniger annotierter Frames und vortrainierter Segmentierungsnetzwerke die Probeneffizienz in komplexen visuellen Umgebungen erheblich verbessert und dabei den STORM-Baseline sowie den aktuellen Stand der Technik übertrifft.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Die Arbeit stellt VOILA vor, einen neuen Benchmark zur Evaluierung der Fähigkeit von multimodalen Sprachmodellen, abstrakte analoge Beziehungen zwischen Bildern zu erkennen, und zeigt, dass diese Modelle trotz menschlicher Überlegenheit bei der relationalen reasoning noch erhebliche Schwierigkeiten haben, die jedoch durch schrittweise Prompting-Strategien verbessert werden können.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo + 4 more2026-02-26💬 cs.CL

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation

Das Paper stellt AnyIR vor, einen effizienten und leichten Ansatz zur Bildrestauration, der durch eine gemeinsame Einbettung und eine räumlich-frequenzbasierte Parallelfusion verschiedene Degradationen in einem einzigen Modell ohne zusätzliche Sprachmodelle bewältigt und dabei gleichzeitig den Parameterbedarf um 84 % sowie die FLOPs um 80 % im Vergleich zum Stand der Technik reduziert.

Bin Ren, Eduard Zamfir, Zongwei Wu + 7 more2026-02-26💻 cs

Transformer-based cardiac substructure segmentation from contrast and non-contrast computed tomography for radiotherapy planning

Die Studie zeigt, dass ein feinabgestimmter, vortrainierter Transformer-basierter Hybridansatz (SMIT) durch balanciertes Curriculum-Learning eine dateneffiziente und robuste Segmentierung von kardialen Substrukturen in kontrastmittelverstärkten und nativen CT-Scans für die Strahlentherapieplanung ermöglicht, die mit einem vollständig annotierten Referenzmodell vergleichbar ist und dabei die Grenzen herkömmlicher CNN-Architekturen wie nnU-Net überwindet.

Aneesh Rangnekar, Nikhil Mankuzhy, Jonas Willmann + 5 more2026-02-26⚡ eess

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

Der Artikel stellt LoRA-Edit vor, eine Methode zur maskengesteuerten Feinabstimmung von LoRA in Bild-zu-Video-Modellen, die eine präzise Kontrolle über die zeitliche Entwicklung von Video-Edits ermöglicht, indem sie zwischen dem Erhalt von Quellinhalten und der Generierung neuer, konsistenter Inhalte oder Referenz-gesteuerter Erscheinungen unterscheidet.

Chenjian Gao, Lihe Ding, Xin Cai + 3 more2026-02-26💻 cs