The Finite Primitive Basis Theorem for Computational Imaging: Formal Foundations of the OperatorGraph Representation

Diese Arbeit beweist den Satz der endlichen primitiven Basis, der zeigt, dass sich jedes Vorwärtsmodell im Bereich der rechnerischen Bildgebung als gerichteter azyklischer Graph aus genau 11 kanonischen Primitiven approximativ darstellen lässt, und legt damit die mathematischen Grundlagen für das Framework des physikalischen Weltmodells (PWM) fest.

Chengshuai Yang2026-02-25💻 cs

PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

Die Arbeit stellt PropFly vor, einen Trainingsansatz für videobasierte Bearbeitungen, der mithilfe von Pre-trained Video Diffusion Models und Guidance-Modulated Flow Matching auf die Notwendigkeit großer, gepaarter Datensätze verzichtet, indem er Trainingspaare direkt während des Trainings aus latenten Darstellungen mit unterschiedlichen CFG-Skalen synthetisiert.

Wonyong Seo, Jaeho Moon, Jaehyup Lee + 2 more2026-02-25💻 cs

Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change

Diese Arbeit stellt eine Methode zur gemeinsamen 3D-Rekonstruktion vor, die durch die direkte Einbeziehung von korrespondierenden Merkmalen über mehrere Sitzungen hinweg und die Nutzung von visuellem Platzwiedererkennung zur effizienten Paarung von Bildern auch bei erheblichen jahrelangen Erscheinungsänderungen, wie sie bei Korallenriffen vorkommen, kohärente Modelle ermöglicht, wo bestehende Ansätze versagen.

Beverley Gorry, Tobias Fischer, Michael Milford + 1 more2026-02-25💻 cs

Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing

Die vorgestellte Arbeit stellt InterFormer vor, einen End-to-End-Transformer, der durch dynamische Abfragegenerierung, einen dualen Kontext-Feature-Selektor und einen bedingten Ko-Oklusions-Loss die Genauigkeit und physikalische Konsistenz bei der Zerlegung von Hand-Objekt-Interaktionen aus Egokamera-Perspektive signifikant verbessert und damit neue State-of-the-Art-Ergebnisse auf EgoHOS und mini-HOI4D erzielt.

Yuejiao Su, Yi Wang, Lei Yao + 2 more2026-02-25💻 cs

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

Die Arbeit stellt SurgAtt-Tracker vor, ein robustes Framework zur Verfolgung der chirurgischen Aufmerksamkeit durch zeitliche Vorschlags-Neuordnung und bewegungsbewusste Verfeinerung, das auf dem neuen, groß angelegten Benchmark SurgAtt-1.16M trainiert wurde und präzise, interpretierbare Steuerungssignale für die automatische Kameraführung in der minimal-invasiven Chirurgie liefert.

Rulin Zhou, Guankun Wang, An Wang + 12 more2026-02-25🤖 cs.AI

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Die Studie zeigt, dass vision-sprachliche Modelle (VLMs) in Kombination mit RGB-Videos und pixelgenauer Segmentierung effektiv zur nicht-invasiven Schätzung der horizontalen und vertikalen Handabstände für die ergonomische Risikoanalyse von Hebeaufgaben nach der RNLE eingesetzt werden können.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI