Bridging Human Evaluation to Infrared and Visible Image Fusion

Die Autoren stellen einen Feedback-Reinforcement-Learning-Rahmen vor, der durch die Einführung des ersten groß angelegten menschlichen Feedback-Datensatzes für die Infrarot- und sichtbare Bildfusion sowie die Optimierung mittels eines Belohnungsmodells und Group Relative Policy Optimization die Qualität fusionierter Bilder an menschliche ästhetische Präferenzen anpasst.

Jinyuan Liu, Xingyuan Li, Qingyun Mei + 5 more2026-03-05💻 cs

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

Die Arbeit stellt eine modulare, asynchrone Tracking-Architektur (MATA) vor, die Transformer-basierte Verfolgung mit einem erweiterten Kalman-Filter und Ego-Bewegungskompensation kombiniert, und führt ein hardwareunabhängiges Evaluierungsprotokoll mit der neuen Metrik „Normalized time to Failure" ein, um die Echtzeitfähigkeit auf eingebetteten UAV-Systemen zu verbessern.

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

Die Arbeit stellt DISC vor, ein neuartiges, voll GPU-beschleunigtes Framework für die großflächige Open-Set-Semantische Kartierung, das durch eine einstufige, gewichtete Extraktion von CLIP-Embeddings und eine Echtzeit-Voxel-Verfeinerung die Limitierungen bestehender instanzbasierter Ansätze überwindet und so eine robuste, latenzfreie robotische Wahrnehmung ermöglicht.

Felix Igelbrink, Lennart Niecksch, Martin Atzmueller + 1 more2026-03-05💻 cs

Structural Action Transformer for 3D Dexterous Manipulation

Die Arbeit stellt den Structural Action Transformer (SAT) vor, ein auf einer strukturbasierten Perspektive beruhendes Imitationslern-Verfahren, das durch die Darstellung von Aktionen als variable, ungeordnete Reihenfolge von Gelenktrajektorien und die Nutzung eines Embodied Joint Codebooks effizientes Cross-Embodiment-Transferlernen für hochgradig dexterous Roboterhände ermöglicht.

Xiaohan Lei, Min Wang, Bohong Weng + 2 more2026-03-05💻 cs

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

Das Paper stellt UniRain vor, ein einheitliches Bildentwässerungsframework, das durch eine auf Retrieval-Augmented Generation basierende Datensatz-Distillation und eine multi-objektive, neu gewichtete Optimierung in asymmetrischen Mixture-of-Experts-Architekturen eine robuste Generalisierung über diverse Regenbedingungen hinweg ermöglicht.

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs

Scaling Dense Event-Stream Pretraining from Visual Foundation Models

Die vorgestellte Arbeit überwindet die Skalierbarkeitshürden bei der Vorverarbeitung von dichten Ereignisströmen durch eine neuartige selbstüberwachte Methode, die visuelle Grundmodelle mittels eines strukturwahrnehmenden Distillationsverlusts nutzt, um semantisch kohärente und hochauflösende Ereignisrepräsentationen zu erzeugen, die in nachgelagerten Aufgaben deutlich bessere Generalisierung und Transferleistung erzielen.

Zhiwen Chen, Junhui Hou, Zhiyu Zhu + 2 more2026-03-05💻 cs