From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Diese Arbeit stellt einen neuartigen Ansatz für die Objektziel-Navigation vor, der durch die Integration eines feinabgestimmten lokalen LLMs in ein hybrides topologisch-gitterbasiertes Kartensystem von einer rein reaktiven zu einer semantisch gesteuerten, kartenbasierten KI übergeht und so die Erkundungseffizienz und Erfolgsraten in unbekannten Umgebungen signifikant verbessert.

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Das Paper stellt DSH-Bench vor, ein umfassendes Benchmark mit hierarchischer Taxonomie, Schwierigkeits- und Szenarioanalyse sowie einem neuen Konsistenzmaß, das die Evaluierung und Weiterentwicklung von subjektgetriebenen Text-zu-Bild-Modellen durch detaillierte Diagnosen und eine höhere Übereinstimmung mit menschlichen Bewertungen verbessert.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

Die Arbeit stellt SAMoE-VLA vor, ein autonomes Fahrmodell, das durch eine szenenadaptive Mixture-of-Experts-Architektur und einen bedingten cross-modalen kausalen Aufmerksamkeitsmechanismus die Instabilität herkömmlicher tokenbasierter Ansätze überwindet und gleichzeitig State-of-the-Art-Ergebnisse auf Benchmark-Datensätzen erzielt.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

Die Arbeit stellt UniGround vor, eine trainingsfreie Methode für das universelle 3D-Visual-Grounding, die durch zweistufiges, auf Topologie und semantischer Kodierung basierendes Reasoning neue State-of-the-Art-Ergebnisse auf Benchmarks wie ScanRefer und EmbodiedScan erzielt und dabei ohne 3D-Überwachung robust auf unbekannte Szenen verallgemeinert.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

Die Arbeit stellt FLED-GS vor, ein schnelles Framework zur gleichzeitigen Verbesserung von Helligkeit und Schärfung in 3D-Szenen bei schwacher Beleuchtung, das durch einen alternierenden Zyklus aus 2D-Entwackelung und noise-bewusstem 3D-Gaussian-Splatting-Rekonstruktionsprozess eine überlegene Leistung bei deutlich kürzeren Trainings- und Renderzeiten im Vergleich zu bestehenden Methoden erzielt.

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

Das Paper stellt MV-Fashion vor, ein groß angelegtes, mehrsichtiges Videodataset mit realistischen Garment-Dynamiken und detaillierten Annotationen, das speziell entwickelt wurde, um die Lücke in der Modeforschung zu schließen und als Grundlage für Aufgaben wie virtuelles Anziehen und Größenbestimmung zu dienen.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

Die Arbeit stellt Edged USLAM vor, ein hybrides visuell-inertiales SLAM-System, das durch eine kantenaufmerksame Front-End-Verarbeitung und lernbasierte Tiefenpriors die Robustheit von Ereigniskameras in schwierigen Umgebungen wie schneller Bewegung oder schlechter Beleuchtung verbessert und dabei eine überlegene Stabilität und geringere Drift im Vergleich zu reinen ereignisbasierten oder rein lernbasierten Ansätzen bietet.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

Das Paper stellt MERLIN vor, ein robustes multimodales Sprachmodell für elektromagnetische Signale, das durch die Einführung des Datensatzes EM-100k, des Benchmarks EM-Bench und eines speziellen Trainingsframeworks die Herausforderungen von Datenknappheit, fehlender Evaluierung und niedrigen Signal-Rausch-Verhältnissen (SNR) im elektromagnetischen Bereich adressiert.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

Die Arbeit stellt ALOOD vor, eine neuartige Methode zur Erkennung von Out-of-Distribution-Objekten in LiDAR-Daten, die durch die Ausrichtung von Objektdetektor-Features auf Sprachrepräsentationen eines Vision-Language-Modells eine Zero-Shot-Klassifizierung ermöglicht und so die Sicherheit autonomer Fahrsysteme erhöht.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Diese Studie stellt zwei neue Fusionsstrategien vor, die eine registrationsbewusste Bildverarbeitung und eine Zuverlässigkeits-gesteuerte Aufmerksamkeitsfusion nutzen, um die Erkennung von unbemannten Luftfahrzeugen (UAVs) durch die Integration heterogener thermischer und visueller Sensordaten signifikant zu verbessern.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs