On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Die Arbeit stellt RobustVLA vor, ein Framework, das Vision-Language-Action-Modelle durch eine Kombination aus adversärem Training für die Ausgabe und konsistenter Aktionsgenerierung für die Eingabe sowie einem Multi-Armed-Bandit-Ansatz zur automatischen Identifizierung kritischer Störungen gegen eine Vielzahl multimodaler Perturbationen robust macht und dabei auf Benchmarks sowie realen Robotern signifikante Verbesserungen gegenüber bestehenden Modellen erzielt.

Jianing Guo, Zhenhong Wu, Chang Tu + 13 more2026-02-25🤖 cs.AI

Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes

Diese Arbeit stellt einen neuartigen Rahmen vor, der durch die Integration von 3D-Akustikdaten aus einem Phasen-Mikrofonarray mit dynamischen RGB-D-Punktwolken eine räumlich-zeitliche multimodale Darstellung chirurgischer Szenen ermöglicht, um chirurgische Handlungen präzise zu lokalisieren und das Verständnis für intelligente Operationssysteme zu vertiefen.

Jonas Hein, Lazaros Vlachopoulos, Maurits Geert Laurent Olthof + 3 more2026-02-25⚡ eess

SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping

Die Autoren stellen SpecAware vor, ein spektral-inhaltsbewusstes Fundamentmodell, das mithilfe eines Hypernetworks und des neu erstellten Hyper-400K-Datensatzes eine einheitliche Multi-Sensor-Lernumgebung für hyperspektrale Fernerkundung ermöglicht, indem es Sensormetadaten und Bildinhalte dynamisch integriert, um die Generalisierungsfähigkeit über verschiedene Sensoren hinweg zu verbessern.

Renjie Ji, Xue Wang, Chao Niu + 3 more2026-02-25💻 cs

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding

Die Arbeit stellt VCFlow vor, ein neuartiges, kognitiv inspiriertes Architekturkonzept, das durch die explizite Modellierung der ventralen und dorsalen visuellen Ströme sowie kontrastives Lernen eine effiziente, subjektunabhängige Rekonstruktion visueller Erfahrungen aus fMRI-Daten ermöglicht und dabei eine hohe Skalierbarkeit für klinische Anwendungen bietet.

Jingyu Lu, Haonan Wang, Qixiang Zhang + 1 more2026-02-25🤖 cs.AI

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

Die vorgestellte Arbeit stellt die erste pose-agnostische, label-freie und multi-view-konsistente Online-Methodik zur Szenenänderungserkennung vor, die durch einen neuartigen selbstüberwachten Fusionsverlust, schnelle PnP-Pose-Schätzung und eine effiziente 3D-Gaussian-Splatting-Aktualisierung nicht nur Echtzeitfähigkeit über 10 FPS erreicht, sondern auch den besten Offline-Ansätzen überlegen ist.

Chamuditha Jayanga Galappaththige, Jason Lai, Lloyd Windrim + 3 more2026-02-25💻 cs

The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

Die Arbeit stellt KeyTailor, ein neuartiges Framework mit einer schlüsselbasierten Detailinjektionsstrategie, sowie den hochauflösenden Datensatz ViT-HD vor, um die Genauigkeit von Kleidungsstücken und die Integrität des Hintergrunds bei Video-Virtual-Try-On-Anwendungen zu verbessern, ohne die Architektur der Diffusion-Transformer zu erweitern.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

CogFlow ist ein neuartiges, vom menschlichen Denken inspiriertes Drei-Stufen-Framework, das durch eine Wissensinternalisierung und spezielle Belohnungsmechanismen die Lücke zwischen visueller Wahrnehmung und logischem Schlussfolgern schließt, um die Leistung von multimodalen Sprachmodellen bei der Lösung visueller mathematischer Probleme signifikant zu verbessern.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Die Autoren stellen ein principal-component-analysis-basiertes, selbstüberwachtes tiefes neuronales Netzwerk (THz-SSDD) vor, das Terahertz-Bilder durch eine Recorrupted-to-Recorrupted-Strategie und PCA-Rekonstruktion gleichzeitig von frequenzabhängigem Rauschen und Unschärfe befreit, ohne auf manuelle Eingriffe oder gelabelte Daten angewiesen zu sein.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs