OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving

Die Arbeit stellt OD-RASE vor, ein ontologiegestütztes Framework, das mithilfe von Large Visual Language Models und Diffusionsmodellen proaktiv unfallverursachende Straßenstrukturen identifiziert und konkrete Infrastrukturempfehlungen generiert, um die Sicherheit autonomer Fahrsysteme zu erhöhen.

Kota Shimomura, Masaki Nambata, Atsuya Ishikawa, Ryota Mimura, Takayuki Kawabuchi, Takayoshi Yamashita, Koki Inoue2026-03-09💻 cs

SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

Die Arbeit stellt SLER-IR vor, ein Framework für die allumfassende Bildwiederherstellung, das durch sphärisches layerweises Experten-Routing, kontrastives Lernen zur Vermeidung geometrischer Verzerrungen und eine globale-lokale Granularitätsfusion die Leistung bei vielfältigen Bilddegradationen signifikant verbessert.

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

Das Paper stellt LucidNFT vor, ein RL-basiertes Framework für die generative Bild-Super-Resolution, das durch die Einführung von LucidConsistency, einer entkoppelten Vorteil-Normalisierung und dem LucidLR-Datensatz die Herausforderungen der semantischen Treue und des Optimierungsengpasses bei der Anpassung von Flow-Matching-Modellen an reale Degradationen überwindet.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

Die Arbeit stellt OVGGT vor, ein training-freies Framework, das durch selbstselektives Caching und dynamischen Ankerschutz die Speichernutzung und Rechenkosten für die 3D-Geometriewiederherstellung aus Streaming-Videos unabhängig von der Videolänge auf ein festes Budget begrenzt und dabei gleichzeitig eine state-of-the-art Genauigkeit erreicht.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Die vorgestellte Arbeit führt das "Skeleton-to-Image Encoding" (S2I) ein, eine Methode, die 3D-Gerüstsequenzen in bildähnliche Darstellungen umwandelt, um leistungsstarke, visuell vortrainierte Modelle für das selbstüberwachte Lernen von Skelettrepräsentationen nutzbar zu machen und so die Verarbeitung heterogener Skelettdaten zu vereinheitlichen.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

Die Arbeit stellt CR-QAT vor, einen Framework aus stufenweiser Quantisierung und textzentrierter relationaler Wissensdistillation, der die durch extreme Niedrigbit-Quantisierung verursachten Einbußen bei der feinkörnigen Vision-Language-Ausrichtung in Open-Vocabulary-Objekterkennung effektiv kompensiert und so die Leistung auf ressourcenbeschränkten Geräten signifikant verbessert.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

Die Studie stellt DynUAV vor, ein neues Benchmark für die Mehrzielverfolgung aus UAV-Perspektive, das durch intensive Eigenbewegungen und komplexe Bedingungen wie starke Skalierungs- und Blickwinkeländerungen sowie Bewegungsunschärfe bestehende Datensätze herausfordert und die Grenzen aktueller Tracker aufzeigt.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Die vorgestellte Arbeit führt ein neuartiges Dual-Branch-Framework mit Gram-Regularisierung und einem spezifischen Tagger-Netzwerk ein, um den Verteilungsversatz bei referenzbasierten Skizzen-Färbungen zu minimieren und damit gleichzeitig hochauflösende, entkoppelte Ergebnisse sowie State-of-the-Art-Qualität und Kontrollierbarkeit zu erreichen.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Dieser Bericht beschreibt die Entwicklung eines automatisierten optischen Inspektionssystems auf Basis von Deep-Learning-Architekturen wie YOLOv8, ResNet-152 und EfficientNet-b4, das unter Einbeziehung von Industriepartnern aus Sialkot auf einem Datensatz von 4.414 Bildern trainiert wurde, um Fertigungsfehler bei chirurgischen Instrumenten aus Pakistan zu erkennen und so die Patientensicherheit sowie die Produktionsqualität zu gewährleisten.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

Der Artikel stellt MM-ISTS vor, ein multimodales Framework, das durch die Integration von Vision-Text-LLMs, einem neuartigen Zwei-Stage-Kodierungsmechanismus und einer adaptiven Abfrage-basierten Merkmalsextraktion die Vorhersage unregelmäßig abgetasteter Zeitreihen verbessert, indem es zeitliche, visuelle und textuelle Kontexte effektiv verknüpft.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360^\circ Depth Estimation via Self-Modulation

Das Paper stellt RePer-360 vor, einen distortionsbewussten Selbstmodulationsrahmen, der vortrainierte Perspektiven-Priors für die 360°-Tiefenschätzung bewahrt und durch einen leichtgewichtigen Leitungsmodul sowie eine selbstkonditionierte AdaLN-Zero-Mechanik eine überlegene Generalisierung mit nur 1 % der Trainingsdaten im Vergleich zu herkömmlichen Fine-Tuning-Methoden ermöglicht.

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs