Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Diese Studie präsentiert einen umfassenden Multi-Modell-Ansatz, der vortrainierte und benutzerdefinierte neuronale Netze für die Verkehrsschilderkennung, Fahrzeug- und Spurerkennung sowie Verhaltensnachahmung integriert, um die Robustheit und Zuverlässigkeit autonomer Fahrsysteme durch fortschrittliche Deep-Learning-Techniken und diverse Datensätze zu verbessern.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

Die vorgestellte Arbeit stellt DiP vor, ein neuartiges Framework für das multimodale Graph-Lernen, das durch modalspezifische Pseudo-Knoten und dynamische Informationspfade eine adaptive, ausdrucksstarke und lineare Komplexität aufweisende Nachrichtenweitergabe über Modalitäten hinweg ermöglicht und dabei bestehende Basismodelle in verschiedenen Benchmarks übertrifft.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Diese Arbeit stellt ein neuartiges Framework vor, das große Mengen an Web-Videos mit impliziten Geometriedarstellungen kombiniert, um Vision-and-Language-Navigation in realistischen Umgebungen zu skalieren und gleichzeitig den Bedarf an fragiler 3D-Rekonstruktion zu umgehen.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

Die Arbeit stellt ForgeDreamer vor, ein neues Framework für die industrielle Text-zu-3D-Generierung, das durch einen Multi-Expert-LoRA-Ensemble-Mechanismus und eine Cross-View-Hypergraph-Geometrie-Verbesserung sowohl Domänenanpassungsprobleme als auch geometrische Konsistenzmängel überwindet und so eine präzise Fertigung ermöglicht.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Die Arbeit stellt SVOR vor, ein robustes Framework, das durch drei innovative Designelemente – MUSE, DA-Seg und ein zweistufiges Curriculum-Training – die Herausforderungen realer Bedingungen wie Schatten, abrupte Bewegungen und fehlerhafte Masken bei der Video-Objektentfernung bewältigt und dabei neue State-of-the-Art-Ergebnisse erzielt.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Das Paper stellt SPR (See, Plan, Rewind) vor, einen fortschrittsbewussten Vision-Language-Action-Rahmen, der durch dynamische Unterteilung von Aufgaben in räumliche Teilziele und einen geschlossenen Regelkreis aus Beobachtung, Planung und Rücksetzfunktion bei Fehlern die Robustheit und Generalisierung robotischer Manipulation signifikant verbessert.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

Die Arbeit stellt IntroSVG vor, einen introspektiven Generator-Kritiker-Rahmen, der durch Supervised Fine-Tuning und Direct Preference Optimization visuelle Rückmeldungen in den Generierungsprozess integriert, um die Qualität von Text-zu-SVG-Generierung durch einen iterativen „Erstellen-Überprüfen-Verfeinern"-Zyklus signifikant zu verbessern.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Die Arbeit stellt SpaceSense-Bench vor, ein groß angelegtes, multimodales Benchmark-Dataset mit 136 Satellitenmodellen und präzisen Ground-Truth-Annotationen, das zur Überwindung von Datenmängeln in der Weltraumwahrnehmung dient und zeigt, dass eine Skalierung der Trainingsdaten entscheidend für die Generalisierung auf unbekannte Ziele ist.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Die Arbeit stellt OddGridBench vor, einen Benchmark zur Bewertung der Sensitivität multimodaler großer Sprachmodelle für feingranulare visuelle Diskrepanzen, und schlägt mit OddGrid-GRPO ein verstärkendes Lernframework vor, das durch Curriculum-Learning und abstandsabhängige Belohnungen die Wahrnehmungsfähigkeit dieser Modelle signifikant verbessert.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Die Arbeit stellt den STAR-Benchmark vor, ein Multi-Agenten-Evaluierungsframework für Nullsummenspiele, das zeigt, dass strategische Intelligenz in dynamischen Umgebungen nicht nur von der Tiefe des logischen Denkens, sondern entscheidend von der Fähigkeit abhängt, Pläne auch unter Zeitdruck schnell umzusetzen, wobei schnellere Modelle in Echtzeitszenarien oft leistungsfähiger sind als rein reasoning-intensive Modelle.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

Die Studie stellt EPPINN vor, einen evidenzbasierten physikinformierten neuronalen Netzwerk-Ansatz zur zuverlässigen und unsicherheitsbewussten Schätzung von Perfusionsparametern in der CT-Perfusionsbildgebung bei Schlaganfällen, der durch die Modellierung von physikalischen Restfehlern mittels Normal-Inverse-Gamma-Verteilungen sowohl die Genauigkeit als auch die Zuverlässigkeit der Diagnose verbessert.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs