SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens

Das Paper stellt SceMoS vor, ein effizientes Framework zur textgesteuerten Synthese von 3D-Mensch-Bewegungen in realistischen Umgebungen, das globale Planung und lokale Ausführung durch die Nutzung von 2D-Bildern (Vogelperspektive und Höhenkarten) statt rechenintensiver 3D-Daten entkoppelt und dabei einen neuen State-of-the-Art in Realismus und Kollisionsvermeidung erreicht.

Anindita Ghosh, Vladislav Golyanik, Taku Komura + 3 more2026-02-25💻 cs

Pip-Stereo: Progressive Iterations Pruner for Iterative Optimization based Stereo Matching

Die Arbeit stellt Pip-Stereo vor, ein Echtzeit-Stereo-Matching-System für Edge-Geräte, das durch progressive Iterationspruning, einen kollaborativen monokularen Prior-Transfer und den hardwareoptimierten FlashGRU-Operator die Rechenlast iterativer RNN-basierter Modelle drastisch reduziert und dabei hohe Genauigkeit mit extrem niedriger Latenz vereint.

Jintu Zheng, Qizhe Liu, HuangXin Xu + 1 more2026-02-25💻 cs

Strategy-Supervised Autonomous Laparoscopic Camera Control via Event-Driven Graph Mining

Die Studie stellt ein interpretierbares, ereignisgesteuertes Framework für die autonome laparoskopische Kamerasteuerung vor, das durch Graph-Mining abgeleitete chirurgische Strategien mit einem Vision-Language-Modell und einem sicheren Closed-Loop-Controller kombiniert, um in Experimenten eine signifikant stabilere und präzisere Bildführung als bei Chirurgen in Ausbildung zu erreichen.

Keyu Zhou, Peisen Xu, Yahao Wu + 3 more2026-02-25💻 cs

The Finite Primitive Basis Theorem for Computational Imaging: Formal Foundations of the OperatorGraph Representation

Diese Arbeit beweist den Satz der endlichen primitiven Basis, der zeigt, dass sich jedes Vorwärtsmodell im Bereich der rechnerischen Bildgebung als gerichteter azyklischer Graph aus genau 11 kanonischen Primitiven approximativ darstellen lässt, und legt damit die mathematischen Grundlagen für das Framework des physikalischen Weltmodells (PWM) fest.

Chengshuai Yang2026-02-25💻 cs

PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

Die Arbeit stellt PropFly vor, einen Trainingsansatz für videobasierte Bearbeitungen, der mithilfe von Pre-trained Video Diffusion Models und Guidance-Modulated Flow Matching auf die Notwendigkeit großer, gepaarter Datensätze verzichtet, indem er Trainingspaare direkt während des Trainings aus latenten Darstellungen mit unterschiedlichen CFG-Skalen synthetisiert.

Wonyong Seo, Jaeho Moon, Jaehyup Lee + 2 more2026-02-25💻 cs

Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change

Diese Arbeit stellt eine Methode zur gemeinsamen 3D-Rekonstruktion vor, die durch die direkte Einbeziehung von korrespondierenden Merkmalen über mehrere Sitzungen hinweg und die Nutzung von visuellem Platzwiedererkennung zur effizienten Paarung von Bildern auch bei erheblichen jahrelangen Erscheinungsänderungen, wie sie bei Korallenriffen vorkommen, kohärente Modelle ermöglicht, wo bestehende Ansätze versagen.

Beverley Gorry, Tobias Fischer, Michael Milford + 1 more2026-02-25💻 cs