SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Die Arbeit stellt SurgFed vor, ein sprachgesteuertes Multi-Task-Federated-Learning-Framework, das durch sprachgesteuerte Kanal-Auswahl und Hyper-Aggregation die Herausforderungen der Gewebe- und Aufgabenvielfalt bei der chirurgischen Videoanalyse über verschiedene Standorte hinweg löst und damit die Segmentierung und Tiefenschätzung in roboterassistierten minimal-invasiven Eingriffen verbessert.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Diese Arbeit untersucht die Zuverlässigkeit von Vision-Language-Modellen im autonomen Fahren, identifiziert deren Mängel in Konsistenz und temporaler Begründung, stellt einen neuen Benchmark namens FutureVQA vor und schlägt eine selbstüberwachte Feinabstimmung mit Chain-of-Thought-Reasoning vor, um diese Defizite ohne temporale Labels zu beheben.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Die Arbeit stellt mit RuleSafe einen neuen Benchmark für langfristige Manipulationsaufgaben an artikulierten Objekten vor und schlägt VQ-Memory vor, eine kompakte, vektorquantisierte Gedächtnisdarstellung, die die Planung und Generalisierung von Vision-Language-Action-Modellen in nicht-Markovschen Umgebungen signifikant verbessert.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai Chenjia2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Die Arbeit stellt DCAU-Net vor, ein effizientes Framework für die medizinische Bildsegmentierung, das durch eine neue Differential Cross Attention (DCA) zur Reduktion der Rechenkomplexität bei gleichzeitiger Hervorhebung diskriminierender Strukturen sowie eine Channel-Spatial Feature Fusion (CSFF) für die adaptive Integration semantischer und räumlicher Merkmale die Segmentierungsgenauigkeit und Robustheit verbessert.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Diese Studie stellt eine von einem Large Language Model (LLM) gesteuerte Methode zur dynamischen multimodalen Ausdrucks生成 vor, die in virtuellen Lernumgebungen semantisch abgestimmte Sprache und Gesten erzeugt und nachweislich die Lernwirksamkeit, das Engagement sowie das menschliche Erscheinungsbild von pädagogischen Agenten verbessert.

Ninghao Wan, Jiarun Song, Fuzheng Yang2026-03-11💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Diese Arbeit stellt eine Reinforcement-Learning-Strategie vor, die Unified Vision-Language-Modelle durch eine hybride Warm-up-Phase und eine erweiterte Group Relative Policy Optimization (GRPO) mit hybriden sowie prozessbasierten Belohnungen befähigt, hochwertige multimodale interleaved Ausgaben ohne große spezialisierte Datensätze zu generieren.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Die Autoren stellen den DynHiL-EQA-Datensatz und das trainingfreie Framework DIVRR vor, um die Herausforderungen dynamischer, von Menschen bevölkerter Umgebungen beim Embodied Question Answering durch eine relevante Sichtverfeinerung und selektive Speicherauswahl zu bewältigen und dabei sowohl die Robustheit als auch die Inferenzeffizienz zu steigern.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Diese Studie bietet eine umfassende Analyse verschiedener Zeit-of-Flight-Nicht-Sichtlinien-Imaging-Methoden, indem sie diese unter einem gemeinsamen mathematischen und hardwaretechnischen Rahmen vergleicht, um ihre Ähnlichkeiten, Unterschiede sowie gemeinsame Leistungsgrenzen bezüglich räumlicher Auflösung und Rauschempfindlichkeit objektiv zu bewerten.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Das Paper stellt GeoSolver vor, ein Framework, das durch den Einsatz eines token-level Prozess-Reward-Modells (GeoPRM) und des Algorithmus Process-Aware Tree-GRRO die testzeitliche Skalierbarkeit und visuelle Zuverlässigkeit von Vision-Language-Modellen in der Fernerkundung durch feingranulare Prozessüberwachung signifikant verbessert.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

Trajectory Optimization for Self-Wrap-Aware Cable-Towed Planar Object Manipulation under Implicit Tension Constraints

Diese Arbeit stellt ein Trajektorienoptimierungsverfahren vor, das die selbstwickelnde Umleitung von Seilen bei der Manipulation verformbarer Objekte explizit berücksichtigt und durch eine Relaxierungshierarchie sowie implizite Spannungsbedingungen effizientere Manöver ermöglicht, die Drehmomente durch gezielte Seilumlenkung nutzen.

Yu Li, Amin Fakhari, Hamid Sadeghian2026-03-11💻 cs