Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Die Arbeit stellt Prompt-SID vor, ein selbstüberwachtes Framework für die Einzelbild-Denoising, das mittels latenten Diffusionsprozessen strukturelle Prompts generiert und über einen Transformer-basierten Aufmerksamkeitsmechanismus integriert, um strukturelle Details zu bewahren und die Effizienz gegenüber bestehenden blind-spot-basierten Methoden zu steigern.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

Die Studie stellt das Framework „Texts as Time Series" (TaTS) vor, das zeitlich gepaarte Texte als Hilfsvariablen nutzt, um bestehende reine Zahlen-basierte Zeitreihenmodelle ohne Architekturänderungen zu erweitern und deren Vorhersage- sowie Imputationsleistung in multimodalen Szenarien zu verbessern.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Deep Learning-Based Approach for Automatic 2D and 3D MRI Segmentation of Gliomas

Diese Studie stellt einen tiefenlernbasierten Ansatz vor, der auf UNET-, Inception- und ResNet-Architekturen aufbaut, um durch eine ausgewogene Kombination von 2D- und 3D-Faltungsschichten eine automatisierte und präzise Gliom-Segmentierung in MRT-Bildern zu ermöglichen, wobei das ResNet-Modell auf den BraTS-Datensätzen mit einer 3D-Dice-Bewertung von 0,9888 die besten Ergebnisse erzielte.

Kiranmayee Janardhan, Christy Bobby T2026-03-10💻 cs

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Die vorgestellte Arbeit verbessert die Alzheimer-Diagnose und die Vorhersage von Amyloid-Positivität bei Mittelrisiko-Patienten durch ein skalierbares, auf Transformer-Architekturen basierendes geometrisches Deep-Learning-Modell, das Tetraedermeshes mit anatomischen Landmarken verarbeitet und damit teure PET-Scans teilweise ersetzt.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

Das Paper stellt ViLAM vor, eine Methode, die durch Wissensdistillation von großen Vision-Sprach-Modellen in räumliche Aufmerksamkeitskarten soziale Navigationsfähigkeiten in Roboter integriert und damit die Erfolgswahrscheinlichkeit bei der sozialen Roboternavigation im Vergleich zu bestehenden Methoden um 14,2 % bis 50 % steigert.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh Manocha2026-03-10💻 cs

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Die Arbeit stellt IMPACT vor, ein neuartiges Bewegungsplanungsframework, das Vision-Language-Modelle nutzt, um semantische Umgebungsinformationen zu erfassen und anisotrope Kostenkarten zu generieren, die es einem kontaktbewussten A*-Planer ermöglichen, in überfüllten Umgebungen stabile und sicherheitsbewusste Kontaktbahnen zu finden.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Engineering Systems for Data Analysis Using Interactive Structured Inductive Programming

Das Paper stellt iProg vor, ein Werkzeug für interaktives strukturiertes induktives Programmieren, das durch eine zweistufige Kollaboration zwischen Mensch und KI (Zerlegung in Datenflussdiagramme und Codegenerierung) unter Nutzung eines Intelligibilitätsprotokolls wissenschaftliche Datenanalysesysteme schneller, qualitativ hochwertiger und zuverlässiger entwickelt als herkömmliche Low-Code- oder No-Code-Ansätze.

Shraddha Surana, Ashwin Srinivasan, Michael Bain2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Diese Arbeit stellt eine Methode zur robusten Rekonstruktion von zwei Händen aus monokularen Bildern vor, die heterogene 2D-Strukturpriors aus Vision-Modellen mit einem kollisionsfreien Diffusionsmodell kombiniert, um Interaktionsfehler und Handdurchdringungen auch bei starken Verdeckungen zu vermeiden.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Die Arbeit stellt EDU-PRM vor, ein neuartiges, entropiegetriebenes Prozess-Reward-Modell, das durch automatische, unsicherheitsbasierte Segmentierung von Denkprozessen teure manuelle Annotationen eliminiert und gleichzeitig bei deutlich reduziertem Trainingsdatenaufwand sowie effizienterer Token-Nutzung state-of-the-art Ergebnisse in der mathematischen Problemlösung erzielt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG