Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Diese Arbeit untersucht die Zuverlässigkeit von Vision-Language-Modellen im autonomen Fahren, identifiziert deren Mängel in Konsistenz und temporaler Begründung, stellt einen neuen Benchmark namens FutureVQA vor und schlägt eine selbstüberwachte Feinabstimmung mit Chain-of-Thought-Reasoning vor, um diese Defizite ohne temporale Labels zu beheben.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Die Arbeit stellt DCAU-Net vor, ein effizientes Framework für die medizinische Bildsegmentierung, das durch eine neue Differential Cross Attention (DCA) zur Reduktion der Rechenkomplexität bei gleichzeitiger Hervorhebung diskriminierender Strukturen sowie eine Channel-Spatial Feature Fusion (CSFF) für die adaptive Integration semantischer und räumlicher Merkmale die Segmentierungsgenauigkeit und Robustheit verbessert.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Die Studie zeigt, dass das Fortschreiten der radiologisch nachgewiesenen Pleuroparenchymalen Fibroelastose (PPFE) in zwei großen Lungenkrebs-Screening-Kohorten unabhängig mit einer erhöhten Sterblichkeit und negativen klinischen Ergebnissen assoziiert ist.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph Jacob2026-03-11🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Diese Arbeit stellt eine Reinforcement-Learning-Strategie vor, die Unified Vision-Language-Modelle durch eine hybride Warm-up-Phase und eine erweiterte Group Relative Policy Optimization (GRPO) mit hybriden sowie prozessbasierten Belohnungen befähigt, hochwertige multimodale interleaved Ausgaben ohne große spezialisierte Datensätze zu generieren.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Die Autoren stellen den DynHiL-EQA-Datensatz und das trainingfreie Framework DIVRR vor, um die Herausforderungen dynamischer, von Menschen bevölkerter Umgebungen beim Embodied Question Answering durch eine relevante Sichtverfeinerung und selektive Speicherauswahl zu bewältigen und dabei sowohl die Robustheit als auch die Inferenzeffizienz zu steigern.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Diese Studie bietet eine umfassende Analyse verschiedener Zeit-of-Flight-Nicht-Sichtlinien-Imaging-Methoden, indem sie diese unter einem gemeinsamen mathematischen und hardwaretechnischen Rahmen vergleicht, um ihre Ähnlichkeiten, Unterschiede sowie gemeinsame Leistungsgrenzen bezüglich räumlicher Auflösung und Rauschempfindlichkeit objektiv zu bewerten.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Das Paper stellt GeoSolver vor, ein Framework, das durch den Einsatz eines token-level Prozess-Reward-Modells (GeoPRM) und des Algorithmus Process-Aware Tree-GRRO die testzeitliche Skalierbarkeit und visuelle Zuverlässigkeit von Vision-Language-Modellen in der Fernerkundung durch feingranulare Prozessüberwachung signifikant verbessert.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Diese Arbeit stellt das Panorama-Sprachmodell (PLM) und den zugehörigen Datensatz PanoVQA vor, die durch eine integrierte 360°-Verarbeitung und einen neuen Sparse-Attention-Mechanismus ein ganzheitliches Verständnis von Adversen Omni-Szenen ermöglichen, das über die bloße Kombination einzelner Nahaufnahmen hinausgeht.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen2026-03-11💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Die Studie zeigt, dass eine durch DINO-Aufmerksamkeitskarten inspirierte, sakkadenbasierte Bildklassifizierung, die sich auf relevante Bildregionen konzentriert, die Leistung herkömmlicher Modelle erhält oder sogar übertreffen und so einen vielversprechenden Ansatz für effiziente, biologisch inspirierte visuelle Verarbeitung bietet.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

Die Arbeit stellt OTPL-VIO vor, ein robustes stereo-visuell-inertiales Odometrie-System, das durch lernfreie Linien-Deskriptoren und eine auf optimaler Transporttheorie basierende Zuordnung sowie eine adaptive Unsicherheitsgewichtung die Genauigkeit und Stabilität in texturarmen und beleuchtungswechselnden Umgebungen verbessert.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

Das Paper stellt KV-Lock vor, ein trainingsfreies Framework für DiT-basierte Videodiffusionsmodelle, das durch die dynamische Anpassung der KV-Caching-Rate und der CFG-Stärke auf Basis einer Halluzinationsmetrik gleichzeitig die Hintergrundkonsistenz erhält und die Vordergrundqualität bei Video-Editing-Aufgaben verbessert.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI