PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

Die Arbeit stellt PropFly vor, einen Trainingsansatz für videobasierte Bearbeitungen, der mithilfe von Pre-trained Video Diffusion Models und Guidance-Modulated Flow Matching auf die Notwendigkeit großer, gepaarter Datensätze verzichtet, indem er Trainingspaare direkt während des Trainings aus latenten Darstellungen mit unterschiedlichen CFG-Skalen synthetisiert.

Wonyong Seo, Jaeho Moon, Jaehyup Lee + 2 more2026-02-25💻 cs

Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change

Diese Arbeit stellt eine Methode zur gemeinsamen 3D-Rekonstruktion vor, die durch die direkte Einbeziehung von korrespondierenden Merkmalen über mehrere Sitzungen hinweg und die Nutzung von visuellem Platzwiedererkennung zur effizienten Paarung von Bildern auch bei erheblichen jahrelangen Erscheinungsänderungen, wie sie bei Korallenriffen vorkommen, kohärente Modelle ermöglicht, wo bestehende Ansätze versagen.

Beverley Gorry, Tobias Fischer, Michael Milford + 1 more2026-02-25💻 cs

Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing

Die vorgestellte Arbeit stellt InterFormer vor, einen End-to-End-Transformer, der durch dynamische Abfragegenerierung, einen dualen Kontext-Feature-Selektor und einen bedingten Ko-Oklusions-Loss die Genauigkeit und physikalische Konsistenz bei der Zerlegung von Hand-Objekt-Interaktionen aus Egokamera-Perspektive signifikant verbessert und damit neue State-of-the-Art-Ergebnisse auf EgoHOS und mini-HOI4D erzielt.

Yuejiao Su, Yi Wang, Lei Yao + 2 more2026-02-25💻 cs

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

Die Arbeit stellt SurgAtt-Tracker vor, ein robustes Framework zur Verfolgung der chirurgischen Aufmerksamkeit durch zeitliche Vorschlags-Neuordnung und bewegungsbewusste Verfeinerung, das auf dem neuen, groß angelegten Benchmark SurgAtt-1.16M trainiert wurde und präzise, interpretierbare Steuerungssignale für die automatische Kameraführung in der minimal-invasiven Chirurgie liefert.

Rulin Zhou, Guankun Wang, An Wang + 12 more2026-02-25🤖 cs.AI

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Die Studie zeigt, dass vision-sprachliche Modelle (VLMs) in Kombination mit RGB-Videos und pixelgenauer Segmentierung effektiv zur nicht-invasiven Schätzung der horizontalen und vertikalen Handabstände für die ergonomische Risikoanalyse von Hebeaufgaben nach der RNLE eingesetzt werden können.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

Die Arbeit stellt BBQ vor, ein großskaliges Text-zu-Bild-Modell, das durch das Training auf mit parametrischen Annotationen angereicherten Beschreibungen eine präzise numerische Steuerung von Objektgrenzen und Farben innerhalb eines einheitlichen strukturierten Textrahmens ermöglicht, ohne dass architektonische Änderungen oder Optimierungen zur Inferenzzeit erforderlich sind.

Eliran Kachlon, Alexander Visheratin, Nimrod Sarid + 6 more2026-02-25💻 cs

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Diese Studie stellt eine auf DeepLabV3 und MobileNetV3 basierende KI-Methode zur semantischen Segmentierung von Streulicht in Weltraumkameras vor, die durch Vorab-Training auf öffentlichen Datensätzen generalisiert wird und speziell für den ressourcenbeschränkten Einsatz an Bord von Raumfahrzeugen sowie die Integration in die Navigationspipeline optimiert ist.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

Communication-Inspired Tokenization for Structured Image Representations

Die Arbeit stellt COMiT vor, ein neuartiges Framework zur diskreten Bild-Tokenisierung, das durch einen iterativen, kommunikationsinspirierten Prozess strukturierte, objektspezifische Repräsentationen erzeugt und damit die Fähigkeit zu relationaler Schlussfolgerung und kompositioneller Generalisierung im Vergleich zu bestehenden Methoden erheblich verbessert.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi + 4 more2026-02-25🤖 cs.AI