Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Der Artikel stellt FINS vor, ein leichtgewichtiges Framework, das mithilfe eines vortrainierten Fundamentmodells und eines Multi-Resolution-Hash-Grids aus einem einzigen Bild hochpräzise implizite Oberflächen und SDF-Felder in nur wenigen Sekunden rekonstruiert und damit bestehende Methoden in Geschwindigkeit und Genauigkeit übertrifft.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

Die Arbeit stellt RetoVLA vor, eine Architektur, die durch die Wiederverwendung von Register-Tokens als globale räumliche Kontextquelle die räumliche Reasoning-Fähigkeit von ressourcenschonenden Vision-Language-Action-Modellen ohne Parametererhöhung signifikant verbessert und so die Erfolgsrate robotischer Manipulationsaufgaben steigert.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Das Paper stellt QuantVGGT vor, ein bahnbrechendes Post-Training-Quantisierungsframework für Visual Geometry Grounded Transformers, das durch eine dual geglättete Feinquantisierung und rauschgefiltertes, vielfältiges Sampling die Herausforderungen schwerer Verteilungen und instabiler Kalibrierung bei Milliarden-modellen löst und dabei eine 3,7-fache Speicherreduktion bei über 98 % der ursprünglichen Genauigkeit ermöglicht.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Diese Arbeit stellt ein autonomes Docking-System für UAVs und Vierbeiner in GPS-freien Umgebungen vor, das durch eine tiefenverstärkungslernbasierte Torso-Stabilisierung des Vierbeiners und eine dreistufige UAV-Steuerung mit beschränkungsorientierter Regelung komplexe Geländestrukturen wie Treppen und steile Hänge erfolgreich bewältigt.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

Die Arbeit stellt GS-2M vor, einen materialbewussten Optimierungsrahmen auf Basis von 3D-Gaussian-Splatting, der durch eine neuartige Rauheitsüberwachung und das gemeinsame Optimieren von geometrischen Attributen hochfidele, dreieckige Mesh-Rekonstruktionen selbst bei stark reflektierenden Oberflächen ermöglicht, ohne dabei auf komplexe neuronale Komponenten angewiesen zu sein.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Das Paper stellt QuantSparse vor, ein einheitliches Framework, das Modellquantisierung und Aufmerksamkeitsverdünnung durch Multi-Scale Salient Attention Distillation und Second-Order Sparse Attention Reparameterization kombiniert, um Video-Diffusionstransformer bei gleichzeitiger drastischer Reduktion von Speicherbedarf und Inferenzzeit ohne signifikante Qualitätsverluste zu komprimieren.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

Das Paper stellt DualFlow vor, ein einheitliches und effizientes Framework, das auf rectified flow basiert und durch den Einsatz von Retrieval-Augmented Generation sowie speziellen Verlustfunktionen erstmals hochwertige, multimodale Zwei-Personen-Bewegungen erzeugt, die interaktiv, reaktiv und semantisch präzise auf Text-, Musik- und Bewegungsdaten reagieren.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Die Arbeit stellt PHASE-Net vor, ein physikbasiertes, leichtgewichtiges rPPG-Modell, das durch die Integration von Navier-Stokes-Equations, einem Zero-FLOPs Axial Swapper, einem adaptiven räumlichen Filter und einem gated TCN eine robuste und effiziente berührungslose Herzfrequenzmessung unter schwierigen Bedingungen ermöglicht.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Die Studie stellt LMOD+ vor, ein umfassendes multimodales Datenset und Benchmark mit über 32.000 annotierten Fällen für 12 ophthalmologische Erkrankungen, das zur Entwicklung und systematischen Evaluierung multimodaler großer Sprachmodelle in der Augenheilkunde dient, um deren Potenzial und Grenzen bei Aufgaben wie Krankheitsdiagnose und Stadieneinteilung aufzuzeigen.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

Diese Arbeit stellt ein robustes, auf Funktechnologien (UWB und Radar) basiertes System zur relativen Lokalisierung und Odometrie für heterogene UGV-UAV-Roboterschwärme vor, das durch eine nichtlineare Optimierung und Pose-Graphen-Framework in ROS 2 implementiert wurde und in Simulationen sowie realen Experimenten eine höhere Genauigkeit als bestehende Methoden erreicht.

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

XPPG-PCA: Reference-free automatic speech severity evaluation with principal components

Die Studie stellt XPPG-PCA vor, eine neue, referenzfreie und unüberwachte Methode zur objektiven Bewertung des Schweregrads von Sprachpathologien, die sich durch ihre Robustheit und Leistungsfähigkeit gegenüber etablierten Ansätzen auszeichnet und somit das Potenzial hat, klinische Evaluierungen effizienter und zuverlässiger zu gestalten.

Bence Mark Halpern, Thomas B. Tienkamp, Teja Rebernik + 5 more2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Die vorgestellte Arbeit führt dynamische parabolische Kontrollbarrierefunktionen (DPCBF) ein, die durch eine adaptive, abstands- und geschwindigkeitsabhängige Sicherheitsgrenze die Ineffizienz und Infeasibilität herkömmlicher Kegel-basierter Methoden überwinden und nicht-holonomen Robotern eine zuverlässige Navigation in dicht besetzten Umgebungen mit bis zu 100 dynamischen Hindernissen ermöglichen.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs