PAD-TRO: Projection-Augmented Diffusion for Direct Trajectory Optimization

Das Papier stellt PAD-TRO vor, einen neuartigen, modellbasierten Diffusionsansatz zur direkten Trajektorienoptimierung, der durch einen gradientenfreien Projektionsmechanismus dynamische Feasibility garantiert und damit in Quadrotor-Navigationsszenarien mit Hindernissen eine deutlich höhere Erfolgsrate und null Fehler bei der dynamischen Machbarkeit im Vergleich zu bestehenden Methoden erzielt.

Jushan Chen, Santiago Paternain2026-03-10💻 cs

Vision-Guided Targeted Grasping and Vibration for Robotic Pollination in Controlled Environments

Diese Arbeit stellt ein vision-gesteuertes robotisches System für die gezielte Bestäubung in kontrollierten Umgebungen vor, das durch die Kombination von 3D-Pflanzenrekonstruktion, zielgerichtetem Greifplanen und physikbasierter Vibrationsmodellierung eine präzise und blüten-schonende Bestäubung ermöglicht.

Jaehwan Jeong, Tuan-Anh Vu, Radha Lahoti, Jiawen Wang, Vivek Alumootil, Sangpil Kim, M. Khalid Jawed2026-03-10💻 cs

EB-MBD: Emerging-Barrier Model-Based Diffusion for Safe Trajectory Optimization in Highly Constrained Environments

Die Arbeit stellt EB-MBD vor, eine Methode zur sicheren Trajektorienoptimierung in stark eingeschränkten Umgebungen, die durch den Einsatz progressiv eingeführter Barrieren-Funktionen die Ineffizienz und Leistungsverschlechterung herkömmlicher modellbasierter Diffusionsverfahren vermeidet und dabei eine höhere Lösungsqualität bei deutlich geringerem Rechenaufwand als projektionsbasierte Ansätze erreicht.

Raghav Mishra, Ian R. Manchester2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

Die Arbeit stellt AR-Drag vor, das erste RL-gestützte autoregressive Video-Diffusionsmodell mit nur 1,3 Milliarden Parametern, das durch einen Self-Rollout-Mechanismus und eine Trajektorien-basierte Belohnungsfunktion Echtzeit-Bild-zu-Video-Generierung mit präziser Bewegungssteuerung und hoher visueller Qualität ermöglicht.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

CDE: Concept-Driven Exploration for Reinforcement Learning

Das Paper stellt CDE (Concept-Driven Exploration) vor, eine Methode, die vortrainierte Vision-Language-Modelle nutzt, um durch rekonstruktionsbasierte intrinsische Belohnungen eine effiziente Exploration in visuellen Reinforcement-Learning-Aufgaben zu ermöglichen, was sich durch robuste Leistung in Simulationen und eine 80-prozentige Erfolgsrate bei einem realen Franka-Roboterbewegungsmanöver bestätigt.

Le Mao, Andrew H. Liu, Renos Zabounidis, Yanan Niu, Zachary Kingston, Joseph Campbell2026-03-10💻 cs

Deliberative Dynamics and Value Alignment in LLM Debates

Diese Studie untersucht die deliberativen Dynamiken und Wertausrichtungen von LLMs in Mehr-Turn-Debatten zu alltäglichen ethischen Dilemmata und zeigt, dass sich Modelle wie GPT-4.1, Claude 3.7 Sonnet und Gemini 2.0 Flash in Bezug auf Urteilsrevisionsraten, Werteprioritäten und die Anfälligkeit für Reihenfolgeeffekte je nach Synchronisationsmodus (parallel vs. sequenziell) erheblich unterscheiden.

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Die Arbeit stellt einen retraining-freien, leichten Plugin-Ansatz namens „Functional Head Identification and Class-Conditioned Rescaling" vor, der durch die adaptive Neubalanceierung von wahrnehmungs- und denkorientierten Aufmerksamkeitsköpfen über die Netzwerkschichten hinweg Halluzinationen in multimodalen großen Reasoning-Modellen reduziert und dabei die Genauigkeit signifikant steigert, ohne die Architektur zu verändern oder die Latenz erheblich zu erhöhen.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Diese Arbeit stellt ein präferenzbasiertes, multi-objektives Reinforcement-Learning-Framework vor, das es humanoiden Robotern ermöglicht, durch einen einzigen Policy-Navigationsbefehle präzise zu verfolgen und gleichzeitig externe Kräfte während der menschlichen Interaktion nachgiebig zu kompensieren.

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs

Protege Effect for Behaviour Change: Does Teaching Digital Stress Solutions to Others Reduce One's Own?

Die Studie zeigt, dass der Protégé-Effekt, bei dem Teilnehmer digitale Stressbewältigung anderen beibringen, im Vergleich zu reinen Lern- oder Kontrollgruppen keine signifikante Reduktion des eigenen digitalen Stresses bewirkt und somit die Schwierigkeit unterstreicht, kognitive Engagement in tatsächliche Verhaltensänderungen umzusetzen.

Sameha Alshakhsi, Ala Yankouskaya, Dena Al-Thani, Raian Ali2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Diese systematische Übersichtsarbeit fasst den aktuellen Stand der unsupervised deep generative models zur anormale Detektion in der Neurobildgebung zusammen, hebt ihr Potenzial für die pathologieunabhängige Lokalisierung von Anomalien hervor, identifiziert jedoch methodische Heterogenität und mangelnde externe Validierung als wesentliche Herausforderungen.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Diese Arbeit stellt ein neuartiges Framework namens Collision-based Multi-modal Rehearsal (CMR) vor, das durch gezielte Stichprobenselektion und kollisionsbasierte Wiederholung das Problem der Modalitätsverschränkung beim kontinuierlichen Audio-Visuellen Segmentieren löst und dabei semantische Drift sowie Verwechslungen bei häufig gemeinsam auftretenden Klassen effektiv adressiert.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

Die Arbeit stellt PolyJailbreak vor, einen neuartigen Black-Box-Angriffsrahmen für multimodale Sprachmodelle, der die als „multimodale Sicherheitsasymmetrie" identifizierte Schwachstelle nutzt, um durch eine strukturierte Bibliothek atomarer Strategien und reinforcement-learning-basierte Optimierung die Sicherheitsmechanismen führender Modelle wie GPT-4o und Gemini mit über 95 % Erfolgsquote zu umgehen.

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji2026-03-10💻 cs

Khelte Khelte Shikhi: A Proposed HCI Framework for Gamified Interactive Learning with Minecraft in Bangladeshi Education Systems

Der vorgestellte Entwurf eines HCI-Rahmens „Khelte Khelte Shikhi" schlägt einen gestuften, kontextangepassten Einsatz von Minecraft Education Edition in Bangladeschs Bildungssystem vor, der durch lokale Netzwerke, Offline-Modi und kulturell lokalisierte Inhalte die Herausforderungen unzureichender Infrastruktur und Ressourcen bewältigt, um gamifiziertes Lernen auch in ressourcenarmen Umgebungen zu ermöglichen.

Mohd Ruhul Ameen, Akif Islam, Momen Khandokar Ope2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Das Paper stellt Dream4Drive vor, ein neues Framework zur Erzeugung synthetischer, fotorealistischer Mehransichtsvideos mittels 3D-Assets und Weltmodellen, das speziell darauf ausgelegt ist, die Leistung von Wahrnehmungsmodellen im autonomen Fahren, insbesondere bei seltenen Randfällen, signifikant zu verbessern.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs