Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Die Arbeit stellt LINO UniPS vor, ein universelles photometrisches Stereo-System, das durch Light Register Tokens und Interleaved Attention Blocks eine Entkopplung von Beleuchtung und Oberflächennormals erreicht, während eine waveletbasierte Architektur und ein spezieller Verlustbegriff feine geometrische Details bewahren, was in Kombination mit dem neuen PS-Verse-Datensatz zu neuen State-of-the-Art-Ergebnissen führt.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Diese Arbeit stellt ein neuartiges, von Vision-Language-Modellen (VLMs) geführtes kaskadiertes Framework für die Open-Vocabulary-Tarnobjektsegmentierung vor, das durch die Nutzung von VLM-Features als explizite Prompts für das Segment Anything Model (SAM) und die Einbeziehung des Segmentierungsergebnisses als weicher räumlicher Prior die Herausforderungen der visuellen Ambiguität und des Domänenunterschieds bei der Segmentierung und Klassifizierung von Tarnobjekten überwindet.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Die Arbeit stellt Query-based Adaptive Aggregation (QAA) vor, eine neuartige Merkmalsaggregationsmethode, die durch lernbare Abfragen als Referenzcodebücher die Generalisierungsfähigkeit von Modellen für das universelle visuelle Ortserkennungsproblem (VPR) über mehrere Datensätze hinweg verbessert und dabei den Zustand der Technik übertrifft.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Die Arbeit stellt MCULoRA vor, einen neuen Parameter-effizienten Ansatz für die unvollständige multimodale Emotionserkennung, der durch die Entkopplung gemeinsamer Informationen und eine dynamische Feinabstimmung der Trainingsverhältnisse die Konflikte zwischen Gradienten verschiedener Modalitätskombinationen überwindet und damit die Vorhersagegenauigkeit signifikant verbessert.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

Die Arbeit stellt „Mamba Snake" vor, ein neuartiges Deep-Snake-Framework, das State-Space-Modelle nutzt, um durch die Modellierung interner topologischer Beziehungen und adaptiver Konturverfeinerung die Herausforderungen der einheitlichen medizinischen Bildsegmentierung zu meistern und dabei die Leistung gegenüber aktuellen Methoden signifikant zu steigern.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

Die Arbeit stellt I¨€3π^3 vor, ein feed-forward neuronales Netzwerk mit vollständig permutationsäquivarianter Architektur, das durch den Verzicht auf feste Referenzansichten robustere und genauere Ergebnisse bei Aufgaben der visuellen Geometrie wie Kamerapose-Schätzung und Tiefenrekonstruktion erzielt.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Die Studie stellt ein auf Vision Transformern (ViT) basierendes Deep-Learning-Framework vor, das mithilfe von Sentinel-2- und Formosat-5-Bilddaten sowie einer schwach überwachten Trainingsstrategie die Segmentierung von Katastrophengebieten für das EVAP-Programm der Taiwan Space Agency verbessert und dabei die Zuverlässigkeit und räumliche Kohärenz der Ergebnisse erhöht.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Diese Studie stellt TransUNet-GradCAM vor, einen hybriden Transformer-U-Net-Ansatz mit Selbstattention und erklärbarer Visualisierung, der durch die Integration globaler Kontextinformationen und lokaler Details eine robuste und generalisierbare Segmentierung von diabetischen Fußulzera ermöglicht.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

Die Arbeit stellt S²Q-VDiT vor, ein Nachtrainierungs-Quantisierungsframework für Video-Diffusions-Transformer, das durch saliente Datenselektion und sparse Token-Distillation eine verlustfreie Leistung bei 4-Bit-Gewichten und 6-Bit-Aktivierungen mit signifikant reduzierten Speicher- und Rechenkosten erreicht.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

Das Paper stellt SPEX vor, ein multimodales Vision-Language-Modell, das mithilfe des neuartigen SPIE-Datensatzes und spezieller Trainingsstrategien erstmals spektrale Informationen nutzt, um eine präzise, instruktionsgesteuerte Landbedeckungsextraktion aus multispektralen Fernerkundungsbildern mit erklärenden Texten zu ermöglichen.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Diese Arbeit stellt die erste Bewertung von 3D-Gaussian-Splatting-Methoden auf realen Fisheye-Bildern mit einem Sichtfeld über 180° vor, zeigt, dass 160° die optimale Balance zwischen Abdeckung und Qualität bieten, und führt eine neue, auf UniK3D basierende Tiefen-Initialisierung ein, die die oft fehlschlagende SfM-Initialisierung bei extremen Verzerrungen erfolgreich ersetzt.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Die Autoren stellen ein einheitliches, semantisch fundiertes Framework vor, das durch das Erlernen eines domainsunabhängigen probabilistischen Mannigfaltigkeitsraums anatomischer Regularitäten sowohl source-accessible als auch source-free Domain-Adaptation für die medizinische Bildsegmentierung ermöglicht und dabei state-of-the-art-Ergebnisse in beiden Szenarien erzielt.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Das Paper stellt Video-EM vor, ein trainingsfreies Framework, das durch die Orchestrierung von LLMs und Werkzeugen zur ereignisbasierten Konstruktion und Verfeinerung einer kompakten episodischen Gedächtnisrepräsentation die Herausforderungen des Verständnisses langer Videos für bestehende Video-LLMs löst.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Die Arbeit stellt UniUGG vor, das erste einheitliche Framework für das Verständnis und die Generierung von 3D-Daten, welches durch einen räumlichen Decoder auf Basis eines latenten Diffusionsmodells und eine geometrisch-semantische Lernstrategie hochwertige 3D-Szenen erzeugt und räumliche VQA-Aufgaben löst.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs