RegTrack: Simplicity Beneath Complexity in Robust Multi-Modal 3D Multi-Object Tracking

RegTrack ist ein effizienter und robuster 3D-Multi-Object-Tracking-Ansatz, der durch einen einheitlichen Tri-Cue-Encoder, der von der Yang-Mills-Eichtheorie inspiriert ist, komplexe Assoziationsmetriken und klassenspezifische Priors überflüssig macht und dabei nur 2,6 Millionen Parameter sowie reine Punktwolken-Eingaben für eine überlegene Leistung auf KITTI und nuScenes nutzt.

Lipeng Gu, Xuefeng Yan, Song Wang + 1 more2026-02-25💻 cs

Two Models for Surface Segmentation using the Total Variation of the Normal Vector

Die Autoren stellen einen variationsbasierten Ansatz zur Segmentierung von Dreiecksnetzen vor, der zwei Total-Variations-Regularisierer vergleicht und durch eine Split-Bregman-Methode sowie einen effizienten Newton-Algorithmus auf der Mannigfaltigkeit gelöst wird, wobei der zweite Regularisierer trotz höherer Kosten robustere Ergebnisse liefert.

Manuel Weiß, Lukas Baumgärtner, Laura Weigl + 3 more2026-02-25💻 cs

Revisiting the Generalization Problem of Low-level Vision Models Through the Lens of Image Deraining

Diese Arbeit untersucht das Generalisierungsproblem von Low-Level-Vision-Modellen am Beispiel der Bildentwässerung und zeigt, dass es auf „Shortcut Learning" durch ein Ungleichgewicht zwischen Bildinhalt und Degradation zurückzuführen ist, woraufhin sie Strategien zur Komplexitätsbalance und zur Nutzung generativer Priors zur Verbesserung der Robustheit vorschlägt.

Jinfan Hu, Zhiyuan You, Jinjin Gu + 3 more2026-02-25💻 cs

An Efficient LiDAR-Camera Fusion Network for Multi-Class 3D Dynamic Object Detection and Trajectory Prediction

Die Autoren stellen ein effizientes Multi-Modalitäts-Framework vor, das LiDAR- und Kameradaten mittels der Modelle UniMT und RTMCT kombiniert, um in Echtzeit dynamische Objekte wie Fußgänger und Fahrzeuge zu detektieren und deren Trajektorien vorherzusagen, was sich durch hohe Genauigkeit und eine Echtzeit-Leistung von 13,9 FPS auf ressourcenbeschränkten Robotern auszeichnet.

Yushen He, Lei Zhao, Tianchen Deng + 2 more2026-02-25🤖 cs.AI

HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

Die Arbeit stellt HoloLLM vor, ein multimodales Sprachmodell, das durch die Integration ungewöhnlicher Sensormodalitäten wie LiDAR, Infrarot, mmWave-Radar und WiFi sowie durch einen neuartigen Universal Modality-Injection Projector (UMIP) und eine kollaborative Datenerstellung robustere menschenzentrierte Wahrnehmung und Schlussfolgerung in smarten Umgebungen ermöglicht.

Chuhao Zhou, Jianfei Yang2026-02-25💬 cs.CL

Peering into the Unknown: Active View Selection with Neural Uncertainty Maps for 3D Reconstruction

Die vorgestellte Arbeit führt UPNet ein, ein neuronales Netzwerk zur Vorhersage von Unsicherheitskarten aus einzelnen Bildern, das durch die Aggregation dieser Karten eine effiziente und generalisierbare aktive View-Selection für die 3D-Rekonstruktion ermöglicht, welche die Rechenkosten drastisch senkt und dennoch eine hohe Rekonstruktionsqualität erreicht.

Zhengquan Zhang, Feng Xu, Mengmi Zhang2026-02-25🤖 cs.AI

Addressing Camera Sensors Faults in Vision-Based Navigation: Simulation and Dataset Development

Diese Studie adressiert die Herausforderungen bei der Zuverlässigkeit von visuellen Navigationssystemen im Weltraum durch die systematische Charakterisierung von Kamerafehlern und die Entwicklung eines Simulationsrahmens zur Generierung eines synthetischen Datensatzes für das Training von KI-basierten Fehlererkennungsalgorithmen.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

NRSeg: Noise-Resilient Learning for BEV Semantic Segmentation via Driving World Models

Die Arbeit stellt NRSeg vor, ein rauschresistentes Lernframework für die semantische Segmentierung aus der Vogelperspektive (BEV), das durch die Nutzung synthetischer Daten aus Fahrweltmodellen sowie neuartige Komponenten wie eine Perspektiv-Geometrie-Konsistenzmetrik, eine parallele Vorhersage mit Bin-Verteilungen und ein hierarchisches lokales semantisches Ausschlussmodul die Leistung in unüberwachten und halbüberwachten Szenarien signifikant verbessert.

Siyu Li, Fei Teng, Yihong Cao + 3 more2026-02-25⚡ eess

FedGIN: Federated Learning with Dynamic Global Intensity Non-linear Augmentation for Organ Segmentation using Multi-modal Images

Der Artikel stellt FedGIN vor, ein Framework für das Federated Learning, das durch eine dynamische globale nichtlineare Intensitätsaugmentierung eine robuste und datenschutzkonforme Organsegmentierung über verschiedene Bildgebungsmodalitäten hinweg ermöglicht und dabei signifikante Verbesserungen der Genauigkeit gegenüber herkömmlichen Ansätzen erzielt.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25🤖 cs.AI