Addressing Camera Sensors Faults in Vision-Based Navigation: Simulation and Dataset Development

Diese Studie adressiert die Herausforderungen bei der Zuverlässigkeit von visuellen Navigationssystemen im Weltraum durch die systematische Charakterisierung von Kamerafehlern und die Entwicklung eines Simulationsrahmens zur Generierung eines synthetischen Datensatzes für das Training von KI-basierten Fehlererkennungsalgorithmen.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

NRSeg: Noise-Resilient Learning for BEV Semantic Segmentation via Driving World Models

Die Arbeit stellt NRSeg vor, ein rauschresistentes Lernframework für die semantische Segmentierung aus der Vogelperspektive (BEV), das durch die Nutzung synthetischer Daten aus Fahrweltmodellen sowie neuartige Komponenten wie eine Perspektiv-Geometrie-Konsistenzmetrik, eine parallele Vorhersage mit Bin-Verteilungen und ein hierarchisches lokales semantisches Ausschlussmodul die Leistung in unüberwachten und halbüberwachten Szenarien signifikant verbessert.

Siyu Li, Fei Teng, Yihong Cao + 3 more2026-02-25⚡ eess

FedGIN: Federated Learning with Dynamic Global Intensity Non-linear Augmentation for Organ Segmentation using Multi-modal Images

Der Artikel stellt FedGIN vor, ein Framework für das Federated Learning, das durch eine dynamische globale nichtlineare Intensitätsaugmentierung eine robuste und datenschutzkonforme Organsegmentierung über verschiedene Bildgebungsmodalitäten hinweg ermöglicht und dabei signifikante Verbesserungen der Genauigkeit gegenüber herkömmlichen Ansätzen erzielt.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25🤖 cs.AI

Seeing Through the Noise: Improving Infrared Small Target Detection and Segmentation from Noise Suppression Perspective

Diese Arbeit stellt ein leichtgewichtiges Rauschunterdrückungs-Feature-Pyramid-Netzwerk (NS-FPN) vor, das durch die Integration von Modulen zur frequenzbasierten Feature-Reinigung und spiralförmigen Feature-Sampling die Leistung bei der Infrarot-Zielklein-Detektion und -Segmentierung verbessert und gleichzeitig die Fehlalarmrate senkt.

Maoxun Yuan, Duanni Meng, Ziteng Xi + 4 more2026-02-25🤖 cs.AI

PaCo-FR: Patch-Pixel Aligned End-to-End Codebook Learning for Facial Representation Pre-training

Das Paper stellt PaCo-FR vor, ein unüberwachtes Vor-Trainingsframework für Gesichtsrepräsentationen, das durch eine strukturierte Maskierungsstrategie, einen patchbasierten Codebook-Ansatz und räumliche Konsistenzbeschränkungen feine semantische Details und anatomische Strukturen erfasst, um bei begrenzten annotierten Daten state-of-the-art Ergebnisse zu erzielen.

Yin Xie, Zhichao Chen, Zeyu Xiao + 7 more2026-02-25💻 cs

Learning Unified Representations from Heterogeneous Data for Robust Heart Rate Modeling

Dieses Paper stellt einen neuen Framework vor, der durch zufälliges Feature-Dropping und kontrastives Lernen robuste, heterogenitätsunabhängige Repräsentationen für die Herzfrequenzvorhersage erlernt und dabei auf dem neu eingeführten PARROTAO-Datensatz sowie dem FitRec-Datensatz signifikant bessere Ergebnisse als bestehende Methoden erzielt.

Zhengdong Huang, Zicheng Xie, Wentao Tian + 3 more2026-02-25🤖 cs.LG

PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models

Die Arbeit stellt PCPO (Proportionate Credit Policy Optimization) vor, ein Framework, das durch eine proportionale Kreditvergabe über die Zeitstufen hinweg die Trainingsinstabilität und den Modellkollaps bei der Ausrichtung von Text-zu-Bild-Modellen verhindert und damit eine schnellere Konvergenz sowie eine überlegene Bildqualität im Vergleich zu bestehenden Methoden wie DanceGRPO erreicht.

Jeongjae Lee, Jong Chul Ye2026-02-25🤖 cs.AI

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Die Arbeit stellt RobustVLA vor, ein Framework, das Vision-Language-Action-Modelle durch eine Kombination aus adversärem Training für die Ausgabe und konsistenter Aktionsgenerierung für die Eingabe sowie einem Multi-Armed-Bandit-Ansatz zur automatischen Identifizierung kritischer Störungen gegen eine Vielzahl multimodaler Perturbationen robust macht und dabei auf Benchmarks sowie realen Robotern signifikante Verbesserungen gegenüber bestehenden Modellen erzielt.

Jianing Guo, Zhenhong Wu, Chang Tu + 13 more2026-02-25🤖 cs.AI

Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes

Diese Arbeit stellt einen neuartigen Rahmen vor, der durch die Integration von 3D-Akustikdaten aus einem Phasen-Mikrofonarray mit dynamischen RGB-D-Punktwolken eine räumlich-zeitliche multimodale Darstellung chirurgischer Szenen ermöglicht, um chirurgische Handlungen präzise zu lokalisieren und das Verständnis für intelligente Operationssysteme zu vertiefen.

Jonas Hein, Lazaros Vlachopoulos, Maurits Geert Laurent Olthof + 3 more2026-02-25⚡ eess