cs.CV Arbeiten | Gist.Science

PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

Die Arbeit stellt PropFly vor, einen Trainingsansatz für videobasierte Bearbeitungen, der mithilfe von Pre-trained Video Diffusion Models und Guidance-Modulated Flow Matching auf die Notwendigkeit großer, gepaarter Datensätze verzichtet, indem er Trainingspaare direkt während des Trainings aus latenten Darstellungen mit unterschiedlichen CFG-Skalen synthetisiert.

Wonyong Seo, Jaeho Moon, Jaehyup Lee + 2 more2026-02-25💻 cs

Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change

Diese Arbeit stellt eine Methode zur gemeinsamen 3D-Rekonstruktion vor, die durch die direkte Einbeziehung von korrespondierenden Merkmalen über mehrere Sitzungen hinweg und die Nutzung von visuellem Platzwiedererkennung zur effizienten Paarung von Bildern auch bei erheblichen jahrelangen Erscheinungsänderungen, wie sie bei Korallenriffen vorkommen, kohärente Modelle ermöglicht, wo bestehende Ansätze versagen.

Beverley Gorry, Tobias Fischer, Michael Milford + 1 more2026-02-25💻 cs

Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing

Die vorgestellte Arbeit stellt InterFormer vor, einen End-to-End-Transformer, der durch dynamische Abfragegenerierung, einen dualen Kontext-Feature-Selektor und einen bedingten Ko-Oklusions-Loss die Genauigkeit und physikalische Konsistenz bei der Zerlegung von Hand-Objekt-Interaktionen aus Egokamera-Perspektive signifikant verbessert und damit neue State-of-the-Art-Ergebnisse auf EgoHOS und mini-HOI4D erzielt.

Yuejiao Su, Yi Wang, Lei Yao + 2 more2026-02-25💻 cs

VAGNet: Grounding 3D Affordance from Human-Object Interactions in Videos

Das Paper stellt VAGNet vor, ein Framework, das dynamische Video-Interaktionen nutzt, um die 3D-Affordanz von Objekten präziser zu lokalisieren als statische Ansätze, und führt dazu den ersten entsprechenden Datensatz PVAD ein.

Aihua Mao, Kaihang Huang, Yong-Jin Liu + 2 more2026-02-25💻 cs

Knowing the Unknown: Interpretable Open-World Object Detection via Concept Decomposition Model

Diese Arbeit stellt das interpretierbare IPOW-Framework vor, das durch ein Konzept-Zerlegungsmodell und eine konzeptgesteuerte Korrektur die Erkennung unbekannter Objekte in der Open-World-Objektdetektion verbessert und gleichzeitig die Verwechslung zwischen bekannten und unbekannten Klassen reduziert.

Xueqiang Lv, Shizhou Zhang, Yinghui Xing + 3 more2026-02-25🤖 cs.LG

RecoverMark: Robust Watermarking for Localization and Recovery of Manipulated Faces

Das Paper stellt RecoverMark vor, ein robustes Wasserzeichen-Verfahren, das Gesichter als Wasserzeichen in den Hintergrund einbettet, um gleichzeitig Manipulationen zu lokalisieren, Inhalte wiederherzustellen und Urheberrechte zu schützen, ohne auf fragilen Wasserzeichen zu setzen.

Haonan An, Xiaohui Ye, Guang Hua + 4 more2026-02-25💻 cs

Boosting Instance Awareness via Cross-View Correlation with 4D Radar and Camera for 3D Object Detection

Die Arbeit stellt SIFormer vor, einen Transformer-basierten Ansatz, der durch die Kombination von 2D-Instanzinformationen aus Kamerabildern mit 4D-Radardaten in der BEV-Darstellung die Instanzwahrnehmung für die 3D-Objekterkennung verbessert und dabei State-of-the-Art-Ergebnisse auf mehreren Datensätzen erzielt.

Xiaokai Bai, Lianqing Zheng, Si-Yuan Cao + 6 more2026-02-25💻 cs

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

Die Arbeit stellt SurgAtt-Tracker vor, ein robustes Framework zur Verfolgung der chirurgischen Aufmerksamkeit durch zeitliche Vorschlags-Neuordnung und bewegungsbewusste Verfeinerung, das auf dem neuen, groß angelegten Benchmark SurgAtt-1.16M trainiert wurde und präzise, interpretierbare Steuerungssignale für die automatische Kameraführung in der minimal-invasiven Chirurgie liefert.

Rulin Zhou, Guankun Wang, An Wang + 12 more2026-02-25🤖 cs.AI

SD4R: Sparse-to-Dense Learning for 3D Object Detection with 4D Radar

Die Arbeit stellt SD4R vor, ein neuartiges Framework, das durch einen Vordergrundpunkt-Generator und einen Logit-Query-Encoder extrem spärliche 4D-Radarpunktwolken in dichte Repräsentationen umwandelt und so auf dem View-of-Delft-Datensatz einen State-of-the-Art-Ergebnis für die 3D-Objekterkennung erzielt.

Xiaokai Bai, Jiahao Cheng, Songkai Wang + 5 more2026-02-25💻 cs

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Die Studie zeigt, dass vision-sprachliche Modelle (VLMs) in Kombination mit RGB-Videos und pixelgenauer Segmentierung effektiv zur nicht-invasiven Schätzung der horizontalen und vertikalen Handabstände für die ergonomische Risikoanalyse von Hebeaufgaben nach der RNLE eingesetzt werden können.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?

Die Arbeit stellt AnimeAgent vor, ein bahnbrechendes Multi-Agenten-Framework, das auf Image-to-Video-Modellen basiert und durch die Nachahmung des Disney-Storytelling-Workflows sowie einen hybriden Bewertungsmechanismus die Konsistenz, Ausdrucksstärke und Prompt-Treue bei der automatischen Generierung von Storyboards signifikant verbessert.

Hailong Yan, Shice Liu, Tao Wang + 5 more2026-02-25💻 cs

BoxSplitGen: A Generative Model for 3D Part Bounding Boxes in Varying Granularity

Die Arbeit stellt BoxSplitGen vor, ein generatives Framework, das durch das iterative Aufspalten von Bounding-Boxen und deren anschließende Umwandlung in 3D-Formen eine intuitive, schrittweise Verfeinerung von abstrakten 3D-Ideen zu detaillierten Objekten ermöglicht.

Juil Koo, Wei-Tung Lin, Chanho Park + 2 more2026-02-25💻 cs

BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

Die Arbeit stellt BBQ vor, ein großskaliges Text-zu-Bild-Modell, das durch das Training auf mit parametrischen Annotationen angereicherten Beschreibungen eine präzise numerische Steuerung von Objektgrenzen und Farben innerhalb eines einheitlichen strukturierten Textrahmens ermöglicht, ohne dass architektonische Änderungen oder Optimierungen zur Inferenzzeit erforderlich sind.

Eliran Kachlon, Alexander Visheratin, Nimrod Sarid + 6 more2026-02-25💻 cs

MatchED: Crisp Edge Detection Using End-to-End, Matching-based Supervision

Die Arbeit stellt MatchED vor, ein leichtgewichtiges, end-to-end trainierbares Modul zur überwachungsgetriebenen Zuordnung, das ohne nicht-differenzierbare Nachbearbeitung scharfe Kanten erzeugt und damit den Stand der Technik in der Kantenerkennung verbessert.

Bedrettin Cetinkaya, Sinan Kalkan, Emre Akbas2026-02-25💻 cs

NGL-Prompter: Training-Free Sewing Pattern Estimation from a Single Image

Die Arbeit stellt NGL-Prompter vor, eine trainingsfreie Methode, die große Vision-Language-Modelle mithilfe einer neuartigen natürlichen Sprachrepräsentation (NGL) nutzt, um aus einzelnen Bildern präzise und generalisierbare Nähmuster für komplexe, mehrschichtige Kleidungsstücke zu rekonstruieren.

Anna Badalyan, Pratheba Selvaraju, Giorgio Becherini + 3 more2026-02-25💻 cs

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Diese Studie stellt eine auf DeepLabV3 und MobileNetV3 basierende KI-Methode zur semantischen Segmentierung von Streulicht in Weltraumkameras vor, die durch Vorab-Training auf öffentlichen Datensätzen generalisiert wird und speziell für den ressourcenbeschränkten Einsatz an Bord von Raumfahrzeugen sowie die Integration in die Navigationspipeline optimiert ist.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

Monocular Endoscopic Tissue 3D Reconstruction with Multi-Level Geometry Regularization

Die vorgestellte Methode nutzt 3D-Gaussian-Splatting in Kombination mit einer oberflächenbewussten Rekonstruktion und multi-level geometrischen Regularisierungen, um deformierbare endoskopische Gewebe sowohl in Echtzeit als auch mit hoher geometrischer und texturer Qualität zu rekonstruieren.

Yangsen Chen, Hao Wang2026-02-25💻 cs

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

CleanStyle ist ein Plug-and-Play-Framework für Diffusionsmodelle, das durch die dynamische Unterdrückung von Inhaltsanteilen im Stil-Embedding mittels SVD und die Einführung einer stil-spezifischen Classifier-Free Guidance (SS-CFG) das Problem des Inhaltslecks löst und gleichzeitig die Prompt-Treue sowie die stilistische Konsistenz verbessert.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs

Bridging Physically Based Rendering and Diffusion Models with Stochastic Differential Equation

Diese Arbeit schlägt eine einheitliche stochastische Formulierung vor, die physikalisch basiertes Rendering und Diffusionsmodelle durch die Modellierung von Monte-Carlo-Integration als stochastische Differentialgleichung verbindet, um eine physikalisch fundierte Steuerung von generierten Bildern zu ermöglichen.

Junwei Shu, Wenjie Liu, Changgu Chen + 3 more2026-02-25💻 cs

Communication-Inspired Tokenization for Structured Image Representations

Die Arbeit stellt COMiT vor, ein neuartiges Framework zur diskreten Bild-Tokenisierung, das durch einen iterativen, kommunikationsinspirierten Prozess strukturierte, objektspezifische Repräsentationen erzeugt und damit die Fähigkeit zu relationaler Schlussfolgerung und kompositioneller Generalisierung im Vergleich zu bestehenden Methoden erheblich verbessert.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi + 4 more2026-02-25🤖 cs.AI

← Zurück Weiter →