cs.CV Arbeiten | Gist.Science

SD4R: Sparse-to-Dense Learning for 3D Object Detection with 4D Radar

Die Arbeit stellt SD4R vor, ein neuartiges Framework, das durch einen Vordergrundpunkt-Generator und einen Logit-Query-Encoder extrem spärliche 4D-Radarpunktwolken in dichte Repräsentationen umwandelt und so auf dem View-of-Delft-Datensatz einen State-of-the-Art-Ergebnis für die 3D-Objekterkennung erzielt.

Xiaokai Bai, Jiahao Cheng, Songkai Wang + 5 more2026-02-25💻 cs

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Die Studie zeigt, dass vision-sprachliche Modelle (VLMs) in Kombination mit RGB-Videos und pixelgenauer Segmentierung effektiv zur nicht-invasiven Schätzung der horizontalen und vertikalen Handabstände für die ergonomische Risikoanalyse von Hebeaufgaben nach der RNLE eingesetzt werden können.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?

Die Arbeit stellt AnimeAgent vor, ein bahnbrechendes Multi-Agenten-Framework, das auf Image-to-Video-Modellen basiert und durch die Nachahmung des Disney-Storytelling-Workflows sowie einen hybriden Bewertungsmechanismus die Konsistenz, Ausdrucksstärke und Prompt-Treue bei der automatischen Generierung von Storyboards signifikant verbessert.

Hailong Yan, Shice Liu, Tao Wang + 5 more2026-02-25💻 cs

BoxSplitGen: A Generative Model for 3D Part Bounding Boxes in Varying Granularity

Die Arbeit stellt BoxSplitGen vor, ein generatives Framework, das durch das iterative Aufspalten von Bounding-Boxen und deren anschließende Umwandlung in 3D-Formen eine intuitive, schrittweise Verfeinerung von abstrakten 3D-Ideen zu detaillierten Objekten ermöglicht.

Juil Koo, Wei-Tung Lin, Chanho Park + 2 more2026-02-25💻 cs

BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

Die Arbeit stellt BBQ vor, ein großskaliges Text-zu-Bild-Modell, das durch das Training auf mit parametrischen Annotationen angereicherten Beschreibungen eine präzise numerische Steuerung von Objektgrenzen und Farben innerhalb eines einheitlichen strukturierten Textrahmens ermöglicht, ohne dass architektonische Änderungen oder Optimierungen zur Inferenzzeit erforderlich sind.

Eliran Kachlon, Alexander Visheratin, Nimrod Sarid + 6 more2026-02-25💻 cs

MatchED: Crisp Edge Detection Using End-to-End, Matching-based Supervision

Die Arbeit stellt MatchED vor, ein leichtgewichtiges, end-to-end trainierbares Modul zur überwachungsgetriebenen Zuordnung, das ohne nicht-differenzierbare Nachbearbeitung scharfe Kanten erzeugt und damit den Stand der Technik in der Kantenerkennung verbessert.

Bedrettin Cetinkaya, Sinan Kalkan, Emre Akbas2026-02-25💻 cs

NGL-Prompter: Training-Free Sewing Pattern Estimation from a Single Image

Die Arbeit stellt NGL-Prompter vor, eine trainingsfreie Methode, die große Vision-Language-Modelle mithilfe einer neuartigen natürlichen Sprachrepräsentation (NGL) nutzt, um aus einzelnen Bildern präzise und generalisierbare Nähmuster für komplexe, mehrschichtige Kleidungsstücke zu rekonstruieren.

Anna Badalyan, Pratheba Selvaraju, Giorgio Becherini + 3 more2026-02-25💻 cs

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Diese Studie stellt eine auf DeepLabV3 und MobileNetV3 basierende KI-Methode zur semantischen Segmentierung von Streulicht in Weltraumkameras vor, die durch Vorab-Training auf öffentlichen Datensätzen generalisiert wird und speziell für den ressourcenbeschränkten Einsatz an Bord von Raumfahrzeugen sowie die Integration in die Navigationspipeline optimiert ist.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

Monocular Endoscopic Tissue 3D Reconstruction with Multi-Level Geometry Regularization

Die vorgestellte Methode nutzt 3D-Gaussian-Splatting in Kombination mit einer oberflächenbewussten Rekonstruktion und multi-level geometrischen Regularisierungen, um deformierbare endoskopische Gewebe sowohl in Echtzeit als auch mit hoher geometrischer und texturer Qualität zu rekonstruieren.

Yangsen Chen, Hao Wang2026-02-25💻 cs

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

CleanStyle ist ein Plug-and-Play-Framework für Diffusionsmodelle, das durch die dynamische Unterdrückung von Inhaltsanteilen im Stil-Embedding mittels SVD und die Einführung einer stil-spezifischen Classifier-Free Guidance (SS-CFG) das Problem des Inhaltslecks löst und gleichzeitig die Prompt-Treue sowie die stilistische Konsistenz verbessert.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs

Bridging Physically Based Rendering and Diffusion Models with Stochastic Differential Equation

Diese Arbeit schlägt eine einheitliche stochastische Formulierung vor, die physikalisch basiertes Rendering und Diffusionsmodelle durch die Modellierung von Monte-Carlo-Integration als stochastische Differentialgleichung verbindet, um eine physikalisch fundierte Steuerung von generierten Bildern zu ermöglichen.

Junwei Shu, Wenjie Liu, Changgu Chen + 3 more2026-02-25💻 cs

Communication-Inspired Tokenization for Structured Image Representations

Die Arbeit stellt COMiT vor, ein neuartiges Framework zur diskreten Bild-Tokenisierung, das durch einen iterativen, kommunikationsinspirierten Prozess strukturierte, objektspezifische Repräsentationen erzeugt und damit die Fähigkeit zu relationaler Schlussfolgerung und kompositioneller Generalisierung im Vergleich zu bestehenden Methoden erheblich verbessert.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi + 4 more2026-02-25🤖 cs.AI

PyVision-RL: Forging Open Agentic Vision Models via RL

Das Papier stellt PyVision-RL vor, ein Reinforcement-Learning-Framework für offene multimodale Modelle, das durch eine spezielle Rollout-Strategie und akkumulative Werkzeugbelohnungen den Zusammenbruch der Interaktion verhindert und effizientes, mehrstufiges Werkzeugnutzen sowie kontextadaptive Bildverarbeitung für Bild- und Videoverständnis ermöglicht.

Shitian Zhao, Shaoheng Lin, Ming Li + 4 more2026-02-25🤖 cs.AI

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

Die Studie stellt OrthoDiffusion vor, ein generalisierbares, diffusion-basiertes Fundamentmodell, das durch selbstüberwachtes Lernen auf großen ungelabelten MRT-Datensätzen robuste anatomische Merkmale erfasst und damit sowohl die Segmentierung als auch die Diagnose von Muskuloskelett-Erkrankungen an verschiedenen Gelenken mit hoher Genauigkeit und Daten-effizienz ermöglicht.

Tian Lan, Lei Xu, Zimu Yuan + 8 more2026-02-25🤖 cs.AI

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Diese Arbeit zeigt, dass die globale Intensitäts-nichtlineare (GIN) Augmentierung in einem föderierten Lernsetting, in dem einzelne Institutionen nur Daten einer einzelnen Modalität (CT oder MRT) besitzen, die Generalisierungsfähigkeit von medizinischen Bildsegmentierungsmodellen über Modalitäten hinweg erheblich verbessert und dabei die Privatsphäre wahrt.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25💻 cs

Real-time Motion Segmentation with Event-based Normal Flow

Diese Arbeit stellt einen Echtzeit-Framework für die Bewegungssegmentierung auf Basis von Ereigniskameras vor, der dichte Normalflüsse als Zwischendarstellung nutzt, um die Rechenkomplexität drastisch zu reduzieren und im Vergleich zu bestehenden Methoden eine fast 800-fache Beschleunigung zu erreichen.

Sheng Zhong, Zhongyang Ren, Xiya Zhu + 3 more2026-02-25💻 cs

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

Die Arbeit stellt VGGDrive vor, ein neuartiges Architekturfür Vision-Language-Modelle, das durch einen modularen Cross-View 3D Geometric Enabler (CVGE) die räumliche Wahrnehmung autonomer Fahrzeuge verbessert, indem sie die geometrischen 3D-Features reifer 3D-Foundation-Modelle nahtlos in 2D-Visuelle Merkmale integriert.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs

RU4D-SLAM: Reweighting Uncertainty in Gaussian Splatting SLAM for 4D Scene Reconstruction

Die Arbeit stellt RU4D-SLAM vor, ein robustes Framework zur 4D-Szenenrekonstruktion, das durch die Integration von Bewegungsunschärfe, semantisch geführter Unsicherheitsgewichtung und adaptiven Opazitätsmechanismen die Genauigkeit von SLAM-Systemen in dynamischen Umgebungen mit bewegten Objekten und niedriger Bildqualität erheblich verbessert.

Yangfan Zhao, Hanwei Zhang, Ke Huang + 3 more2026-02-25💻 cs

GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection

Der vorgestellte Ansatz GatedCLIP verbessert die Erkennung von Hass-Memes durch eine dynamische gated-Fusion von visuellen und textuellen Merkmalen sowie kontrastives Lernen, wodurch er im Vergleich zur CLIP-Basislinie auf dem Hateful Memes-Datensatz eine signifikant höhere AUROC von 0,66 bei nur 350.000 trainierbaren Parametern erreicht.

Yingying Guo, Ke Zhang, Zirong Zeng2026-02-25💻 cs

FLIM Networks with Bag of Feature Points

Diese Studie stellt FLIM-BoFP vor, eine effizientere und schnellere Methode zur Filterabschätzung in FLIM-Netzwerken für die saliente Objekterkennung, die durch eine einmalige Clusterbildung am Eingangsblock die Rechenkosten senkt und sich als besonders wirksam für die Parasitendetektion in optischen Mikroskopiebildern erweist.

João Deltregia Martinelli, Marcelo Luis Rodrigues Filho, Felipe Crispim da Rocha Salvagnini + 3 more2026-02-25💻 cs

← Zurück Weiter →