LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

Der Artikel stellt LangSurf vor, eine Methode, die durch eine gemeinsame Trainingsstrategie und ein hierarchisches Kontextbewusstseinsmodul präzise sprachbasierte 3D-Segmentierung und -Bearbeitung ermöglicht, indem sie Sprach-Gaussians exakt mit den Objektoberflächen ausrichtet und so die Grenzen bestehender Ansätze wie LangSplat überwindet.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Diese Arbeit stellt eine Methode vor, die vortrainierte Vision-Language-Modelle nutzt, um abstrakte symbolische Weltmodelle aus wenigen Bild-Demonstrationen zu lernen, wodurch Roboter in der Lage sind, langfristige Entscheidungsprobleme in komplexen Umgebungen durch Planung auf neue Ziele und Szenarien zu verallgemeinern.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

Das Paper stellt VL-Nav vor, ein neuro-symbolisches System, das neuronale Schlussfolgerungen mit symbolischer Führung kombiniert, um autonome Roboter bei der Navigation in komplexen, unbekannten Umgebungen basierend auf abstrakten Sprachanweisungen zu ermöglichen und dabei hohe Erfolgsraten in Simulationen und realen Tests zu erzielen.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Die Arbeit stellt Prompt-SID vor, ein selbstüberwachtes Framework für die Einzelbild-Denoising, das mittels latenten Diffusionsprozessen strukturelle Prompts generiert und über einen Transformer-basierten Aufmerksamkeitsmechanismus integriert, um strukturelle Details zu bewahren und die Effizienz gegenüber bestehenden blind-spot-basierten Methoden zu steigern.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Die vorgestellte Arbeit verbessert die Alzheimer-Diagnose und die Vorhersage von Amyloid-Positivität bei Mittelrisiko-Patienten durch ein skalierbares, auf Transformer-Architekturen basierendes geometrisches Deep-Learning-Modell, das Tetraedermeshes mit anatomischen Landmarken verarbeitet und damit teure PET-Scans teilweise ersetzt.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

Die Arbeit stellt Snapmoji vor, ein System zur sofortigen Generierung animierbarer 3D-Avatare aus Selfies, das durch eine neuartige Gaußsche Domänenanpassung und einen Dual-Stylisierungsprozess die Identität des Nutzers bewahrt und eine effiziente mobile Darstellung ermöglicht.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Die Arbeit stellt SceneEval vor, ein Evaluierungsframework mit einem neuen Benchmark und feinkörnigen Metriken, das die semantische Kohärenz und Plausibilität textbasiert generierter 3D-Innenszenen umfassend bewertet und dabei sowohl explizite Benutzeranforderungen als auch implizite Erwartungen wie Stabilität und Navigierbarkeit berücksichtigt.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Diese Arbeit stellt eine Methode zur robusten Rekonstruktion von zwei Händen aus monokularen Bildern vor, die heterogene 2D-Strukturpriors aus Vision-Modellen mit einem kollisionsfreien Diffusionsmodell kombiniert, um Interaktionsfehler und Handdurchdringungen auch bei starken Verdeckungen zu vermeiden.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

Die vorgestellte Arbeit stellt LEL vor, ein Ensemble-Lernframework, das durch Lipschitz-Stetigkeitsbeschränkungen in Transformer-Architekturen die Stabilität, Genauigkeit und Robustheit der EEG-basierten Emotionserkennung innerhalb einzelner Probanden signifikant verbessert.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

Die Arbeit stellt einen auf die Aufgabe ausgerichteten semantischen Kompressionsrahmen vor, der mittels eines orthogonally eingeschränkten variationalen Informationsflaschenhals-Encoders (O-VIB) redundante Merkmale eliminiert, um mobile Plattformen bei der präzisen visuellen Lokalisierung in GPS-limitierten städtischen Umgebungen unter strengen Bandbreitenbeschränkungen zu unterstützen.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

Die Studie stellt DeepSparse, das erste Foundation-Modell für die Rekonstruktion von Sparse-View-CBCT-Bildern, vor, das durch die innovative DiCE-Netzwerkarchitektur und das HyViP-Vorabtrainingsframework eine überlegene Bildqualität bei reduzierter Strahlenbelastung und verbesserter Generalisierbarkeit im Vergleich zu bestehenden Methoden erreicht.

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

Die Arbeit stellt M³CAD vor, ein umfassendes Benchmark mit multimodalen Daten von 204 Sequenzen, das als erster spezifischer Standard für die Forschung zu kooperativem, multiaufgabenfähigem autonomen Fahren dient und durch die Einführung einer netzwerkadaptiven Multi-Level-Fusionsmethode die Balance zwischen Kommunikationseffizienz und Wahrnehmungsgenauigkeit verbessert.

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs