Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Die Arbeit stellt den Cumulative Consensus Score (CCS) vor, eine modellunabhängige und annotierungsfreie Metrik, die durch Messung der räumlichen Konsistenz von Bounding-Box-Vorhersagen über Testzeit-Augmentierungen hinweg die Zuverlässigkeit von Objektdetektoren im Einsatz überwacht und dabei eine hohe Übereinstimmung mit etablierten Qualitätsmaßen aufweist.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Die Autoren stellen ein asynchrones Reinforcement-Learning-Framework vor, das durch die Entkopplung von Wahrnehmung und Steuerung sowie die Verwendung eines temporalen Kodierungsmoduls hochfrequente, agile autonome Navigation von Luftfahrzeugen in komplexen Umgebungen trotz verzögerter Sensorik ermöglicht und erfolgreich in der realen Welt demonstriert wurde.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

In dieser Studie wird der OIPP (Object-Adaptive Impact Point Predictor) vorgestellt, ein System für einen Vierbeiner-Roboter, das mithilfe eines neu erstellten Datensatzes mit 8.000 Flugbahnen und eines objektspezifischen Encoders den Landepunkt verschiedener fliegender Objekte präzise vorhersagt, um das Auffangen unter komplexen aerodynamischen Bedingungen zu ermöglichen.

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Der Artikel stellt FINS vor, ein leichtgewichtiges Framework, das mithilfe eines vortrainierten Fundamentmodells und eines Multi-Resolution-Hash-Grids aus einem einzigen Bild hochpräzise implizite Oberflächen und SDF-Felder in nur wenigen Sekunden rekonstruiert und damit bestehende Methoden in Geschwindigkeit und Genauigkeit übertrifft.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

Die Arbeit stellt RetoVLA vor, eine Architektur, die durch die Wiederverwendung von Register-Tokens als globale räumliche Kontextquelle die räumliche Reasoning-Fähigkeit von ressourcenschonenden Vision-Language-Action-Modellen ohne Parametererhöhung signifikant verbessert und so die Erfolgsrate robotischer Manipulationsaufgaben steigert.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Das Paper stellt QuantVGGT vor, ein bahnbrechendes Post-Training-Quantisierungsframework für Visual Geometry Grounded Transformers, das durch eine dual geglättete Feinquantisierung und rauschgefiltertes, vielfältiges Sampling die Herausforderungen schwerer Verteilungen und instabiler Kalibrierung bei Milliarden-modellen löst und dabei eine 3,7-fache Speicherreduktion bei über 98 % der ursprünglichen Genauigkeit ermöglicht.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Diese Arbeit stellt ein autonomes Docking-System für UAVs und Vierbeiner in GPS-freien Umgebungen vor, das durch eine tiefenverstärkungslernbasierte Torso-Stabilisierung des Vierbeiners und eine dreistufige UAV-Steuerung mit beschränkungsorientierter Regelung komplexe Geländestrukturen wie Treppen und steile Hänge erfolgreich bewältigt.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

Die Arbeit stellt GS-2M vor, einen materialbewussten Optimierungsrahmen auf Basis von 3D-Gaussian-Splatting, der durch eine neuartige Rauheitsüberwachung und das gemeinsame Optimieren von geometrischen Attributen hochfidele, dreieckige Mesh-Rekonstruktionen selbst bei stark reflektierenden Oberflächen ermöglicht, ohne dabei auf komplexe neuronale Komponenten angewiesen zu sein.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Das Paper stellt QuantSparse vor, ein einheitliches Framework, das Modellquantisierung und Aufmerksamkeitsverdünnung durch Multi-Scale Salient Attention Distillation und Second-Order Sparse Attention Reparameterization kombiniert, um Video-Diffusionstransformer bei gleichzeitiger drastischer Reduktion von Speicherbedarf und Inferenzzeit ohne signifikante Qualitätsverluste zu komprimieren.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs