Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

Diese Arbeit schlägt eine volumetrische Segmentierungsstrategie vor, die durch einen strukturierten Zerlegungs- und Wiederzusammensetzungsmechanismus 2D-basierte DINOv3-Grundlagenrepräsentationen auf die 3D-Segmentierung von Hippocampus-Strukturen in neonatalen MRT-Bildern erweitert und dabei einen konstanten Speicherverbrauch bei anatomischer Konsistenz gewährleistet.

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

Die Arbeit stellt MIGM-Shortcut vor, eine Methode, die durch das Erlernen eines leichtgewichtigen Modells zur Regression der Geschwindigkeitsfelder der Feature-Entwicklung unter Einbeziehung von Abtasttoken die Effizienz von Masked Image Generation Models erheblich steigert und dabei bei Text-zu-Bild-Generierung eine mehr als vierfache Beschleunigung bei gleichbleibender Qualität ermöglicht.

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

Die Arbeit stellt SR3R vor, ein Feed-Forward-Framework, das die 3D-Super-Resolution durch die direkte Vorhersage hochauflösender 3D-Gaussian-Splatting-Repräsentationen aus wenigen low-resolution-Ansichten neu definiert und so eine robuste Generalisierung sowie eine überlegene Rekonstruktionsqualität im Vergleich zu bestehenden Methoden ermöglicht.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

Das Paper stellt SteerVAD vor, einen neuartigen, feinsten-tuning-freien Ansatz zur Videoanomalieerkennung, der durch die Identifizierung diskriminativer Aufmerksamkeitsköpfe und deren gezielte, anisotrope Skalierung mittels eines hierarchischen Meta-Controllers die latenten Repräsentationen gefrorener multimodaler LLMs korrigiert und so State-of-the-Art-Ergebnisse mit nur 1 % der Trainingsdaten erzielt.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

GuardAlign ist ein trainingsfreies Verteidigungsframework für multimodale Sprachmodelle, das durch den Einsatz von Optimal-Transport zur präzisen Erkennung unsicherer Bildbereiche und einer cross-modalen Aufmerksamkeitskalibrierung zur Stabilisierung von Sicherheitsignalen die Sicherheitsrate signifikant verbessert, ohne die Nützlichkeit der Modelle zu beeinträchtigen.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Die Arbeit stellt ein einheitliches Framework vor, das mittels eines generativen Diffusionsmodells und impliziter Schnittmuster in UV-Raum sowohl aus Einzelbildern als auch aus Videos hochdetaillierte, zeitlich konsistente 3D-Rekonstruktionen von bekleideten Menschen ermöglicht, die selbst bei lockerer Kleidung und realen Aufnahmen über den bestehenden Stand der Technik hinausgehen.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Die Arbeit stellt Quant Experts (QE) vor, eine tokenbewusste adaptive Fehlerrekonstruktionsmethode mit Mixture-of-Experts, die durch die Unterscheidung zwischen tokenunabhängigen und tokenabhängigen Kanälen die Nachtrainings-Quantisierung von Large Vision-Language-Modellen verbessert und dabei die Genauigkeit von Vollpräzisionsmodellen beibehält.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Diese Arbeit stellt ein neurosymbolisches Verifikationsframework vor, das mithilfe eines SMT-Lösers und einer klinischen Wissensdatenbank die logische Konsistenz von bildbasierten Sprachmodellen bei der Erstellung radiologischer Berichte automatisch prüft und so hallucinierte Diagnosen eliminiert, um die Zuverlässigkeit klinischer Schlussfolgerungen zu garantieren.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

Die Arbeit stellt TASOT vor, eine unüberwachte Methode zur chirurgischen Phasen- und Schritterkennung, die multimodalen optimalen Transport unter Einbeziehung von visuellen und textuellen Informationen nutzt und dabei auf umfangreiche Vorab-Trainings verzichtet, während sie gleichzeitig signifikante Verbesserungen gegenüber bestehenden Zero-Shot-Methoden auf mehreren Benchmark-Datensätzen erzielt.

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI