FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

Die Arbeit stellt FusionRegister vor, eine allgemeine Methode zur Registrierung von Infrarot- und sichtbaren Bildern, die durch visuelle Priors und das Lernen von Fehlausrichtungsrepräsentationen eine effiziente, robuste und nahtlos integrierbare Bildfusion ermöglicht, ohne auf umfangreiche Vorregistrierungen angewiesen zu sein.

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

Die Arbeit stellt UniUncer vor, ein leichtgewichtiges, einheitliches Unsicherheitsframework für End-to-End-Fahrsysteme, das erstmals Unsicherheiten sowohl für statische als auch dynamische Szenenelemente gemeinsam schätzt und durch adaptive Mechanismen in die Planung integriert, um die Zuverlässigkeit und Leistung in komplexen Verkehrssituationen signifikant zu verbessern.

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

Die Arbeit stellt das Masked Motion Diffusion Model (MMDM) vor, ein auf Diffusionsmodellen basierendes Framework mit einem Kinematic Attention Aggregation-Mechanismus, das durch das Erlernen kontextadaptiver Bewegungspriors unvollständige oder verrauschte Bewegungsdaten für Aufgaben wie Rekonstruktion, Vervollständigung und Interpolation robust rekonstruiert.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Die Arbeit stellt 3ViewSense vor, ein Framework, das die räumliche Intelligenz von Vision-Language-Modellen durch eine auf orthografischen Ansichten basierende „Simulieren-und-Schließen"-Methode schließt, um die Lücke bei der Konstruktion kohärenter 3D-Mentalmodelle aus 2D-Beobachtungen zu überwinden.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

Das Papier stellt AR2-4FV vor, ein System für die langfristige sprachgesteuerte Verfolgung in Videos mit fester Kameraperspektive, das durch die Nutzung eines statischen Hintergrund-Ankerbanks, eines Re-Entry-Priors und eines ReID-Gating-Mechanismus die Wiederauffindungsrate signifikant verbessert und die Latenz bei der Wiederauffindung von Objekten nach langen Unterbrechungen reduziert.

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

Das Paper stellt DECADE vor, ein unüberwachtes Diffusionsmodell, das durch die Einbeziehung zeitlicher Konsistenz Rb-82-dynamische kardiale PET-Bilder effektiv entrauscht und dabei sowohl die Bildqualität als auch die quantitative Genauigkeit der Durchblutungsparameter erhält, ohne auf gepaarte Trainingsdaten angewiesen zu sein.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

Das Paper stellt MedQ-Deg vor, ein umfassendes Benchmark mit 24.894 Frage-Antwort-Paaren über 18 Degradationstypen und 7 Bildgebungsmodalitäten, das zeigt, dass multimodale Sprachmodelle im medizinischen Bereich bei Bildqualitätsverschlechterungen systematisch an Leistung verlieren und dabei trotz stark sinkender Genauigkeit unangemessen hochsicher bleiben.

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

Die vorgestellte Arbeit stellt GK-FedDKD vor, einen geometrischen wissensgestützten Ansatz für das federierte Lernen, der durch eine duale Wissensdistillation und die Aggregation globaler geometrischer Kovarianzinformationen die Herausforderungen der Datenheterogenität bei der Analyse von Fernerkundungsbildern bewältigt und dabei signifikant bessere Ergebnisse als bestehende Methoden erzielt.

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Das Paper stellt OrdinalBench vor, einen diagnostischen Benchmark mit 39.000 Frage-Antwort-Paaren, der die Generalisierungsfähigkeiten von Vision-Language-Modellen beim Verständnis ordinaler Zahlen und der sequenziellen Schlussfolgerung durch standardisierte N-te-Objekt-Identifikationsaufgaben systematisch evaluiert und dabei signifikante Schwächen bei großen Ordinalzahlen und komplexen Pfaden aufzeigt.

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

Die Arbeit stellt SGI vor, ein kompaktes Framework zur effizienten Darstellung hochauflösender Bilder, das durch eine seed-basierte Zerlegung in strukturierte lokale Räume und eine Multi-Scale-Anpassung sowohl die Kompression als auch die Konvergenzgeschwindigkeit im Vergleich zu bestehenden 2D-Gaussian-Methoden erheblich verbessert.

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Die Arbeit stellt HybridStitch vor, ein neues Paradigma für die Text-zu-Bild-Generierung, das durch eine hybride Verarbeitungsebene, welche große und kleine Diffusionsmodelle kombiniert, um komplexe Bildbereiche mit dem großen Modell zu verfeinern und einfache Bereiche mit dem kleinen Modell zu rendern, eine 1,83-fache Beschleunigung bei Stable Diffusion 3 erreicht.

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

In dieser Studie werden kostengünstige Kamerafallen und visuelle Basis-Modelle eingesetzt, um im hawaiianischen Nebelwald detaillierte, zeitlich hochaufgelöste Daten zu Pflanzenphänologie und Flora-Fauna-Interaktionen zu erfassen, wodurch Trends sichtbar werden, die mit herkömmlichen Stichprobenmethoden nicht erkennbar sind.

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs