GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

GuardAlign ist ein trainingsfreies Verteidigungsframework für multimodale Sprachmodelle, das durch den Einsatz von Optimal-Transport zur präzisen Erkennung unsicherer Bildbereiche und einer cross-modalen Aufmerksamkeitskalibrierung zur Stabilisierung von Sicherheitsignalen die Sicherheitsrate signifikant verbessert, ohne die Nützlichkeit der Modelle zu beeinträchtigen.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Die Arbeit stellt ein einheitliches Framework vor, das mittels eines generativen Diffusionsmodells und impliziter Schnittmuster in UV-Raum sowohl aus Einzelbildern als auch aus Videos hochdetaillierte, zeitlich konsistente 3D-Rekonstruktionen von bekleideten Menschen ermöglicht, die selbst bei lockerer Kleidung und realen Aufnahmen über den bestehenden Stand der Technik hinausgehen.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Die Arbeit stellt Quant Experts (QE) vor, eine tokenbewusste adaptive Fehlerrekonstruktionsmethode mit Mixture-of-Experts, die durch die Unterscheidung zwischen tokenunabhängigen und tokenabhängigen Kanälen die Nachtrainings-Quantisierung von Large Vision-Language-Modellen verbessert und dabei die Genauigkeit von Vollpräzisionsmodellen beibehält.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Diese Arbeit stellt ein neurosymbolisches Verifikationsframework vor, das mithilfe eines SMT-Lösers und einer klinischen Wissensdatenbank die logische Konsistenz von bildbasierten Sprachmodellen bei der Erstellung radiologischer Berichte automatisch prüft und so hallucinierte Diagnosen eliminiert, um die Zuverlässigkeit klinischer Schlussfolgerungen zu garantieren.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

Die Arbeit stellt TASOT vor, eine unüberwachte Methode zur chirurgischen Phasen- und Schritterkennung, die multimodalen optimalen Transport unter Einbeziehung von visuellen und textuellen Informationen nutzt und dabei auf umfangreiche Vorab-Trainings verzichtet, während sie gleichzeitig signifikante Verbesserungen gegenüber bestehenden Zero-Shot-Methoden auf mehreren Benchmark-Datensätzen erzielt.

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Die Arbeit stellt UMPIRE vor, ein training-freies Framework zur Unsicherheitsquantifizierung für multimodale Large Language Models, das durch die Berechnung des inkohärenzadjustierten semantischen Volumens auf Basis interner Modellmerkmale zuverlässige Fehlererkennung und Kalibrierung über verschiedene Modalitäten hinweg ermöglicht.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL