Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Die Autoren stellen VeilGen und DeVeiler vor, ein System, das mittels eines generativen Modells und latenter Transmission- sowie Blendkarten realistische Linsenblendung simuliert und darauf aufbauend eine physikalisch fundierte Restaurierung für vereinfachte optische Systeme ermöglicht.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

Die Arbeit stellt SyncMV4D vor, ein bahnbrechendes Modell, das erstmals synchronisierte Multi-View-Videos und 4D-Bewegungen für Hand-Objekt-Interaktionen durch die gemeinsame Generierung visueller und dynamischer Daten in einem geschlossenen Regelkreis erzeugt, um so Realismus und geometrische Konsistenz zu verbessern.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

Die vorgestellte Studie entwickelt eine geschlechtsspezifische Registrierungsmethode für Ganzkörper-MRT-Bilder der UK Biobank, die durch die Nutzung von Gewebemasken (subkutanes Fett und Muskulatur) die Genauigkeit im Vergleich zu rein intensitätsbasierten und anderen etablierten Verfahren signifikant verbessert und somit präzisere raumbezogene Analysen medizinischer Daten ermöglicht.

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

Die Arbeit stellt UniTS vor, ein einheitliches generatives Spatio-Temporal-Modell auf Basis von Flow Matching, das durch den Einsatz eines Diffusion Transformers mit spezialisierten Komponenten wie dem Adaptive Condition Injector und dem Spatiotemporal-aware Modulator verschiedene Fernerkundungsaufgaben wie Rekonstruktion, Wolkenentfernung, Veränderungserkennung und Vorhersage in einem einzigen Rahmen vereint und dabei bestehende spezialisierte Modelle übertrifft.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

Diese Arbeit stellt ein rechen-effizientes, punktcloud-basiertes Framework für die ereignisgesteuerte menschliche Pose-Schätzung vor, das durch die Ausnutzung räumlich-zeitlicher Eigenschaften von Event-Streams und spezielle Module zur zeitlichen Modellierung sowie zur Kantenverstärkung die Leistung auf dem DHP19-Datensatz im Vergleich zu bestehenden Methoden signifikant verbessert.

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

Fast-BEV++: Fast by Algorithm, Deployable by Design

Fast-BEV++ ist ein neuartiges, rein visuelles BEV-Wahrnehmungsframework, das durch eine hardwareoptimierte Architektur und einen lernfähigen Tiefenmodul einen neuen State-of-the-Art bei der Genauigkeit auf dem nuScenes-Datensatz erreicht und gleichzeitig eine Echtzeit-Inferenz von über 134 FPS auf Edge-Plattformen ermöglicht, ohne dabei auf benutzerdefinierte Kernel angewiesen zu sein.

Yuanpeng Chen, Hui Song, Sheng Yang, Wei Tao, Shanhui Mo, Shuang Zhang, Xiao Hua, Tiankun Zhao2026-03-09💻 cs

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Diese Studie stellt eine neuartige, patch-basierte Methode zur topologischen Datenanalyse (TDA) für CT-Bilder vor, die im Vergleich zu herkömmlichen 3D-Würfelkomplexen und radiomischen Merkmalen sowohl die Klassifikationsleistung als auch die Recheneffizienz signifikant verbessert und durch das Python-Paket „Patch-TDA" zugänglich gemacht wird.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

Das Paper CASA stellt eine effiziente Vision-Language-Architektur vor, die durch die Wiedereinführung und Optimierung von Cross-Attention-Mechanismen anstelle von Token-Einfügung eine signifikante Reduzierung von Speicher- und Rechenaufwand bei gleichzeitig hoher Leistung, insbesondere für Echtzeit-Videoanwendungen, ermöglicht.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

Pretraining Frame Preservation for Lightweight Autoregressive Video History Embedding

Diese Arbeit stellt einen leichten Encoder vor, der durch eine Vortrainierungsphase mit Frame-Query-Zielsetzung und anschließendes Fine-Tuning lange Videohistorien in kompakte Embeddings überführt, um bei begrenzten Ressourcen eine konsistente autoregressive Videogenerierung zu ermöglichen.

Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

Die Arbeit stellt Spatial4D-Bench vor, einen umfassenden Benchmark mit etwa 40.000 Frage-Antwort-Paaren und 18 Aufgaben in sechs kognitiven Kategorien, der die erheblichen Defizite aktueller multimodaler Großsprachenmodelle bei der 4D-räumlichen Intelligenz im Vergleich zum menschlichen Niveau aufzeigt.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs