The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

Die Arbeit stellt KeyTailor, ein neuartiges Framework mit einer schlüsselbasierten Detailinjektionsstrategie, sowie den hochauflösenden Datensatz ViT-HD vor, um die Genauigkeit von Kleidungsstücken und die Integrität des Hintergrunds bei Video-Virtual-Try-On-Anwendungen zu verbessern, ohne die Architektur der Diffusion-Transformer zu erweitern.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

CogFlow ist ein neuartiges, vom menschlichen Denken inspiriertes Drei-Stufen-Framework, das durch eine Wissensinternalisierung und spezielle Belohnungsmechanismen die Lücke zwischen visueller Wahrnehmung und logischem Schlussfolgern schließt, um die Leistung von multimodalen Sprachmodellen bei der Lösung visueller mathematischer Probleme signifikant zu verbessern.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Die Autoren stellen ein principal-component-analysis-basiertes, selbstüberwachtes tiefes neuronales Netzwerk (THz-SSDD) vor, das Terahertz-Bilder durch eine Recorrupted-to-Recorrupted-Strategie und PCA-Rekonstruktion gleichzeitig von frequenzabhängigem Rauschen und Unschärfe befreit, ohne auf manuelle Eingriffe oder gelabelte Daten angewiesen zu sein.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs

Pareto-Guided Optimization for Uncertainty-Aware Medical Image Segmentation

Die vorgestellte Arbeit schlägt eine Pareto-geführte Optimierungsstrategie für die medizinische Bildsegmentierung vor, die durch einen kurrikularen Lernansatz, einen Pareto-konsistenten Verlust und einen Fuzzy-Labeling-Mechanismus die inhärente Unsicherheit an Gewebe-Grenzen adressiert und so eine stabilere Konvergenz sowie präzisere Ergebnisse im Vergleich zu herkömmlichen Methoden erzielt.

Jinming Zhang, Youpeng Yang, Xi Yang + 5 more2026-02-25💻 cs

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

Die Arbeit stellt GOT-Edit vor, eine Online-Methode zur Bearbeitung von Modellen, die geometrische Hinweise aus einem vortrainierten Visual Geometry Grounded Transformer nutzt, um die Robustheit und Genauigkeit von generischen Objektverfolgern in 2D-Videos, insbesondere bei Verdeckungen und Ablenkungen, durch die Integration von 3D-Geometrie in semantische Merkmale zu verbessern.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo + 1 more2026-02-25⚡ eess

Ecological mapping with geospatial foundation models

Diese Studie zeigt, dass feinabgestimmte geospatiale Grundmodelle wie Prithvi-EO-2.0 und TerraMind bei ökologischen Anwendungen wie der Erfassung von Waldeigenschaften, Landnutzungskartierung und Torfmoosdetektion konsequent besser abschneiden als ein herkömmlicher ResNet-101-Baseline-Ansatz, wobei ihre Leistung jedoch von der genauen Ausrichtung der Trainingsdaten und der Eingabeauflösung abhängt.

Craig Mahlasi, Gciniwe S. Baloyi, Zaheed Gaffoor + 6 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

Das Paper stellt Sim2Radar vor, ein Framework, das mithilfe von Vision-Language-Modellen und physikbasierten Raytracing-Methoden aus einzelnen RGB-Bildern realistische mmWave-Radardaten synthetisiert, um das Sim2Real-Problem zu überwinden und die Leistung von 3D-Radar-Objektdetektoren durch Transfer-Learning signifikant zu verbessern.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Das Paper stellt HERO vor, ein neues Paradigma für die humanoide Loko-Manipulation, das durch die Kombination von Open-Vocabulary-Vision-Modellen für die visuelle Generalisierung und einer präzisen, residualbewussten Endeffektor-Steuerung mit simuliertem Training eine zuverlässige Interaktion mit alltäglichen Objekten in verschiedenen realen Umgebungen ermöglicht.

Runpei Dong, Ziyan Li, Xialin He + 1 more2026-02-25💻 cs