cs Arbeiten | Gist.Science

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Der Artikel stellt FINS vor, ein leichtgewichtiges Framework, das mithilfe eines vortrainierten Fundamentmodells und eines Multi-Resolution-Hash-Grids aus einem einzigen Bild hochpräzise implizite Oberflächen und SDF-Felder in nur wenigen Sekunden rekonstruiert und damit bestehende Methoden in Geschwindigkeit und Genauigkeit übertrifft.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

Die Arbeit stellt RetoVLA vor, eine Architektur, die durch die Wiederverwendung von Register-Tokens als globale räumliche Kontextquelle die räumliche Reasoning-Fähigkeit von ressourcenschonenden Vision-Language-Action-Modellen ohne Parametererhöhung signifikant verbessert und so die Erfolgsrate robotischer Manipulationsaufgaben steigert.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Das Paper stellt QuantVGGT vor, ein bahnbrechendes Post-Training-Quantisierungsframework für Visual Geometry Grounded Transformers, das durch eine dual geglättete Feinquantisierung und rauschgefiltertes, vielfältiges Sampling die Herausforderungen schwerer Verteilungen und instabiler Kalibrierung bei Milliarden-modellen löst und dabei eine 3,7-fache Speicherreduktion bei über 98 % der ursprünglichen Genauigkeit ermöglicht.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Diese Arbeit stellt ein autonomes Docking-System für UAVs und Vierbeiner in GPS-freien Umgebungen vor, das durch eine tiefenverstärkungslernbasierte Torso-Stabilisierung des Vierbeiners und eine dreistufige UAV-Steuerung mit beschränkungsorientierter Regelung komplexe Geländestrukturen wie Treppen und steile Hänge erfolgreich bewältigt.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Die Arbeit stellt den Motion-Aware Transformer (MATR) vor, ein End-to-End-Modell für das Multi-Object-Tracking, das durch die explizite Vorhersage von Objektbewegungen zur Aktualisierung von Track-Queries Kollisionen reduziert und damit auf mehreren Benchmark-Datensätzen neue State-of-the-Art-Ergebnisse erzielt.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

Die Arbeit stellt GS-2M vor, einen materialbewussten Optimierungsrahmen auf Basis von 3D-Gaussian-Splatting, der durch eine neuartige Rauheitsüberwachung und das gemeinsame Optimieren von geometrischen Attributen hochfidele, dreieckige Mesh-Rekonstruktionen selbst bei stark reflektierenden Oberflächen ermöglicht, ohne dabei auf komplexe neuronale Komponenten angewiesen zu sein.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Towards Strategic Persuasion with Language Models

Diese Arbeit stellt einen theoretisch fundierten Rahmen auf Basis der Bayes'schen Persuasionstheorie vor, der es ermöglicht, die persuasiven Fähigkeiten von Sprachmodellen zu evaluieren und durch Reinforcement Learning zu trainieren, wobei sich zeigt, dass sowohl große als auch kleine Modelle signifikante Gewinne und strategisch fundierte Überzeugungsansätze erzielen können.

Zirui Cheng, Jiaxuan You2026-03-10💻 cs

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

Die Arbeit stellt SAC-Loco vor, ein Sicherheits-bewusstes Framework für quadrupede Roboter, das durch die Integration eines einstellbaren, kraftkomplianten Reinforcement-Learning-Policies und eines Sicherheitskritikers sowohl weiche Anpassung an externe Kräfte als auch robuste Stabilität und schnelle Erholung bei Störungen ermöglicht.

Aoqian Zhang, Zixuan Zhuang, Chunzheng Wang, Shuzhi Sam Ge, Fan Shi, Cheng Xiang2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Die Arbeit stellt FAMDA vor, einen effizienten Framework für die unsupervised Domain Adaptation bei Multi-Task-Dichtvorhersage, der Vision Foundation Models als Lehrer nutzt, um robuste und ressourcenschonende Schülermodelle für robotische Anwendungen zu trainieren.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Das Paper stellt QuantSparse vor, ein einheitliches Framework, das Modellquantisierung und Aufmerksamkeitsverdünnung durch Multi-Scale Salient Attention Distillation und Second-Order Sparse Attention Reparameterization kombiniert, um Video-Diffusionstransformer bei gleichzeitiger drastischer Reduktion von Speicherbedarf und Inferenzzeit ohne signifikante Qualitätsverluste zu komprimieren.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

Das Paper stellt DualFlow vor, ein einheitliches und effizientes Framework, das auf rectified flow basiert und durch den Einsatz von Retrieval-Augmented Generation sowie speziellen Verlustfunktionen erstmals hochwertige, multimodale Zwei-Personen-Bewegungen erzeugt, die interaktiv, reaktiv und semantisch präzise auf Text-, Musik- und Bewegungsdaten reagieren.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

Die Arbeit stellt ELHPlan vor, ein effizientes Framework für die langfristige Aufgabenplanung in der Multi-Agenten-Kollaboration, das durch die Verwendung intentiongebundener Aktionsketten eine hohe Anpassungsfähigkeit bei gleichzeitig deutlich reduzierter Token-Nutzung im Vergleich zu bestehenden Methoden erreicht.

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Die Arbeit stellt PHASE-Net vor, ein physikbasiertes, leichtgewichtiges rPPG-Modell, das durch die Integration von Navier-Stokes-Equations, einem Zero-FLOPs Axial Swapper, einem adaptiven räumlichen Filter und einem gated TCN eine robuste und effiziente berührungslose Herzfrequenzmessung unter schwierigen Bedingungen ermöglicht.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Die Studie stellt LMOD+ vor, ein umfassendes multimodales Datenset und Benchmark mit über 32.000 annotierten Fällen für 12 ophthalmologische Erkrankungen, das zur Entwicklung und systematischen Evaluierung multimodaler großer Sprachmodelle in der Augenheilkunde dient, um deren Potenzial und Grenzen bei Aufgaben wie Krankheitsdiagnose und Stadieneinteilung aufzuzeigen.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Demystifying Codensity Monads via Duality

Die Autoren stellen einen vereinheitlichenden kategorialen Ansatz vor, der Codensity-Monaden durch Dualitätsbeziehungen zu dichten Funktoren erklärt, wodurch bekannte Darstellungen stark vereinfacht und neue Präsentationen für Filter- und Erwartungsmonaden hergeleitet werden.

Fabian Lenke, Nico Wittrock, Stefan Milius, Henning Urbat2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

Diese Arbeit stellt ein robustes, auf Funktechnologien (UWB und Radar) basiertes System zur relativen Lokalisierung und Odometrie für heterogene UGV-UAV-Roboterschwärme vor, das durch eine nichtlineare Optimierung und Pose-Graphen-Framework in ROS 2 implementiert wurde und in Simulationen sowie realen Experimenten eine höhere Genauigkeit als bestehende Methoden erreicht.

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

XPPG-PCA: Reference-free automatic speech severity evaluation with principal components

Die Studie stellt XPPG-PCA vor, eine neue, referenzfreie und unüberwachte Methode zur objektiven Bewertung des Schweregrads von Sprachpathologien, die sich durch ihre Robustheit und Leistungsfähigkeit gegenüber etablierten Ansätzen auszeichnet und somit das Potenzial hat, klinische Evaluierungen effizienter und zuverlässiger zu gestalten.

Bence Mark Halpern, Thomas B. Tienkamp, Teja Rebernik + 5 more2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Die vorgestellte Arbeit führt dynamische parabolische Kontrollbarrierefunktionen (DPCBF) ein, die durch eine adaptive, abstands- und geschwindigkeitsabhängige Sicherheitsgrenze die Ineffizienz und Infeasibilität herkömmlicher Kegel-basierter Methoden überwinden und nicht-holonomen Robotern eine zuverlässige Navigation in dicht besetzten Umgebungen mit bis zu 100 dynamischen Hindernissen ermöglichen.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Die Arbeit stellt REVEL, eine neue Aufgabe für die interaktive Drag-Manipulation von Videos, und DragStream, eine trainingsfreie Methode zur Vermeidung von Latent-Drift und Kontextstörungen in autoregressiven Videodiffusionsmodellen, vor.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

Diese Arbeit stellt ein State-of-the-Art-System zur Sprecherüberprüfung vor, das w2v-BERT 2.0 mit LoRA und MFA-Adaptern kombiniert und durch wissensbasiertes strukturiertes Pruning eine 80%ige Größenreduktion bei minimaler Genauigkeitsverlust erreicht.

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs

← Zurück Weiter →