SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping

Die Autoren stellen SpecAware vor, ein spektral-inhaltsbewusstes Fundamentmodell, das mithilfe eines Hypernetworks und des neu erstellten Hyper-400K-Datensatzes eine einheitliche Multi-Sensor-Lernumgebung für hyperspektrale Fernerkundung ermöglicht, indem es Sensormetadaten und Bildinhalte dynamisch integriert, um die Generalisierungsfähigkeit über verschiedene Sensoren hinweg zu verbessern.

Renjie Ji, Xue Wang, Chao Niu + 3 more2026-02-25💻 cs

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding

Die Arbeit stellt VCFlow vor, ein neuartiges, kognitiv inspiriertes Architekturkonzept, das durch die explizite Modellierung der ventralen und dorsalen visuellen Ströme sowie kontrastives Lernen eine effiziente, subjektunabhängige Rekonstruktion visueller Erfahrungen aus fMRI-Daten ermöglicht und dabei eine hohe Skalierbarkeit für klinische Anwendungen bietet.

Jingyu Lu, Haonan Wang, Qixiang Zhang + 1 more2026-02-25🤖 cs.AI

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

Die vorgestellte Arbeit stellt die erste pose-agnostische, label-freie und multi-view-konsistente Online-Methodik zur Szenenänderungserkennung vor, die durch einen neuartigen selbstüberwachten Fusionsverlust, schnelle PnP-Pose-Schätzung und eine effiziente 3D-Gaussian-Splatting-Aktualisierung nicht nur Echtzeitfähigkeit über 10 FPS erreicht, sondern auch den besten Offline-Ansätzen überlegen ist.

Chamuditha Jayanga Galappaththige, Jason Lai, Lloyd Windrim + 3 more2026-02-25💻 cs

The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

Die Arbeit stellt KeyTailor, ein neuartiges Framework mit einer schlüsselbasierten Detailinjektionsstrategie, sowie den hochauflösenden Datensatz ViT-HD vor, um die Genauigkeit von Kleidungsstücken und die Integrität des Hintergrunds bei Video-Virtual-Try-On-Anwendungen zu verbessern, ohne die Architektur der Diffusion-Transformer zu erweitern.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

CogFlow ist ein neuartiges, vom menschlichen Denken inspiriertes Drei-Stufen-Framework, das durch eine Wissensinternalisierung und spezielle Belohnungsmechanismen die Lücke zwischen visueller Wahrnehmung und logischem Schlussfolgern schließt, um die Leistung von multimodalen Sprachmodellen bei der Lösung visueller mathematischer Probleme signifikant zu verbessern.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Die Autoren stellen ein principal-component-analysis-basiertes, selbstüberwachtes tiefes neuronales Netzwerk (THz-SSDD) vor, das Terahertz-Bilder durch eine Recorrupted-to-Recorrupted-Strategie und PCA-Rekonstruktion gleichzeitig von frequenzabhängigem Rauschen und Unschärfe befreit, ohne auf manuelle Eingriffe oder gelabelte Daten angewiesen zu sein.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs

Pareto-Guided Optimization for Uncertainty-Aware Medical Image Segmentation

Die vorgestellte Arbeit schlägt eine Pareto-geführte Optimierungsstrategie für die medizinische Bildsegmentierung vor, die durch einen kurrikularen Lernansatz, einen Pareto-konsistenten Verlust und einen Fuzzy-Labeling-Mechanismus die inhärente Unsicherheit an Gewebe-Grenzen adressiert und so eine stabilere Konvergenz sowie präzisere Ergebnisse im Vergleich zu herkömmlichen Methoden erzielt.

Jinming Zhang, Youpeng Yang, Xi Yang + 5 more2026-02-25💻 cs

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

Die Arbeit stellt GOT-Edit vor, eine Online-Methode zur Bearbeitung von Modellen, die geometrische Hinweise aus einem vortrainierten Visual Geometry Grounded Transformer nutzt, um die Robustheit und Genauigkeit von generischen Objektverfolgern in 2D-Videos, insbesondere bei Verdeckungen und Ablenkungen, durch die Integration von 3D-Geometrie in semantische Merkmale zu verbessern.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo + 1 more2026-02-25⚡ eess