π3\pi^3: Permutation-Equivariant Visual Geometry Learning

Die Arbeit stellt I¨€3π^3 vor, ein feed-forward neuronales Netzwerk mit vollständig permutationsäquivarianter Architektur, das durch den Verzicht auf feste Referenzansichten robustere und genauere Ergebnisse bei Aufgaben der visuellen Geometrie wie Kamerapose-Schätzung und Tiefenrekonstruktion erzielt.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Die Studie stellt ein auf Vision Transformern (ViT) basierendes Deep-Learning-Framework vor, das mithilfe von Sentinel-2- und Formosat-5-Bilddaten sowie einer schwach überwachten Trainingsstrategie die Segmentierung von Katastrophengebieten für das EVAP-Programm der Taiwan Space Agency verbessert und dabei die Zuverlässigkeit und räumliche Kohärenz der Ergebnisse erhöht.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

C-Koordinator: Interference-aware Management for Large-scale and Co-located Microservice Clusters

Die Arbeit stellt C-Koordinator vor, eine von Alibaba entwickelte Open-Source-Plattform, die durch die Nutzung von CPI-basierten Interferenzvorhersagemodellen mit über 90,3 % Genauigkeit die Ressourcennutzung in großskaligen, gemeinsam genutzten Microservice-Clustern optimiert und dabei die Antwortzeiten im Vergleich zu bestehenden Systemen um 16,7 % bis 36,1 % verbessert.

Shengye Song, Minxian Xu, Zuowei Zhang + 5 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

Diese Arbeit stellt einen neuartigen, rollenden taktilen Sensor vor, der eine neuromorphe Kamera mit einer ereignisbasierten 3D-Rekonstruktion kombiniert, um große Industrieflächen wie Flugzeugrümpfe bei bis zu 0,5 m/s mit einer Genauigkeit unter 100 Mikrometern elfmal schneller als bisherige kontinuierliche Methoden zu inspizieren.

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs

Dynamic Symbolic Execution for Semantic Difference Analysis of Component and Connector Architectures

Diese Arbeit untersucht die Anwendung der dynamischen symbolischen Ausführung zur semantischen Differenzanalyse von MontiArc-Architekturen, stellt dabei ein Framework zur Bewertung verschiedener Ausführungsstrategien vor und identifiziert Skalierbarkeit als zentrale Herausforderung für den Einsatz in größeren Systemen.

Johanna Grahl, Bernhard Rumpe, Max Stachon, Sebastian Stüber2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Diese Studie stellt TransUNet-GradCAM vor, einen hybriden Transformer-U-Net-Ansatz mit Selbstattention und erklärbarer Visualisierung, der durch die Integration globaler Kontextinformationen und lokaler Details eine robuste und generalisierbare Segmentierung von diabetischen Fußulzera ermöglicht.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

Die Arbeit stellt S²Q-VDiT vor, ein Nachtrainierungs-Quantisierungsframework für Video-Diffusions-Transformer, das durch saliente Datenselektion und sparse Token-Distillation eine verlustfreie Leistung bei 4-Bit-Gewichten und 6-Bit-Aktivierungen mit signifikant reduzierten Speicher- und Rechenkosten erreicht.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

Das Paper stellt SPEX vor, ein multimodales Vision-Language-Modell, das mithilfe des neuartigen SPIE-Datensatzes und spezieller Trainingsstrategien erstmals spektrale Informationen nutzt, um eine präzise, instruktionsgesteuerte Landbedeckungsextraktion aus multispektralen Fernerkundungsbildern mit erklärenden Texten zu ermöglichen.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Diese Arbeit stellt die erste Bewertung von 3D-Gaussian-Splatting-Methoden auf realen Fisheye-Bildern mit einem Sichtfeld über 180° vor, zeigt, dass 160° die optimale Balance zwischen Abdeckung und Qualität bieten, und führt eine neue, auf UniK3D basierende Tiefen-Initialisierung ein, die die oft fehlschlagende SfM-Initialisierung bei extremen Verzerrungen erfolgreich ersetzt.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Die Autoren stellen ein einheitliches, semantisch fundiertes Framework vor, das durch das Erlernen eines domainsunabhängigen probabilistischen Mannigfaltigkeitsraums anatomischer Regularitäten sowohl source-accessible als auch source-free Domain-Adaptation für die medizinische Bildsegmentierung ermöglicht und dabei state-of-the-art-Ergebnisse in beiden Szenarien erzielt.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Das Paper stellt Video-EM vor, ein trainingsfreies Framework, das durch die Orchestrierung von LLMs und Werkzeugen zur ereignisbasierten Konstruktion und Verfeinerung einer kompakten episodischen Gedächtnisrepräsentation die Herausforderungen des Verständnisses langer Videos für bestehende Video-LLMs löst.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Die Arbeit stellt UniUGG vor, das erste einheitliche Framework für das Verständnis und die Generierung von 3D-Daten, welches durch einen räumlichen Decoder auf Basis eines latenten Diffusionsmodells und eine geometrisch-semantische Lernstrategie hochwertige 3D-Szenen erzeugt und räumliche VQA-Aufgaben löst.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

Die Arbeit stellt PointSlice vor, eine neuartige, auf horizontalen Schnitten basierende Methode zur 3D-Objekterkennung aus Punktwolken, die durch eine effiziente 2D-Datenrepräsentation und ein Slice-Interaktions-Netzwerk (SIN) eine überlegene Balance zwischen Detektionsgenauigkeit und Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Voxel- und Säulen-basierten Ansätzen erreicht.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs