cs.CV Arbeiten | Gist.Science

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

Die Arbeit stellt SRNeRV vor, ein neuartiges, rekursives Framework für neuronale Videodarstellung, das durch eine hybride Parameter-Sharing-Strategie die Redundanz herkömmlicher Multi-Scale-Generatoren eliminiert und so bei gleichzeitiger drastischer Verkleinerung des Modells eine signifikante Verbesserung der Rate-Distortion-Leistung erzielt.

Jia Wang, Jun Zhu, Xinfeng Zhang2026-03-10💻 cs

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

Das Paper stellt GarmentPainter vor, ein effizientes Framework, das mithilfe eines character-gesteuerten Diffusionsmodells und einer UV-Positionsmap hochqualitative, 3D-konsistente Kleidungs-Texturen generiert, ohne dass eine räumliche Ausrichtung zwischen Referenzbild und 3D-Mesh erforderlich ist.

Jinbo Wu, Xiaobo Gao, Xing Liu, Chen Zhao, Jialun Liu2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Diese Studie nutzt Deep-Learning-Modelle und Ultra-Weitfeld-Bildgebung auf dem UWF4DR-Datensatz, um die Diagnose von diabetischer Retinopathie und makulärem Ödem zu verbessern, wobei insbesondere Vision-Transformer, Frequenzbereichsdarstellungen und Feature-Level-Fusion eine robuste und erklärbare Leistung zeigen.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

Die Arbeit stellt SiMO vor, ein kollaboratives Wahrnehmungssystem, das durch den neuartigen LAMMA-Fusionsmechanismus und eine spezielle Trainingsstrategie auch bei Ausfall einzelner Sensoren (z. B. LiDAR) eine robuste Leistung aufrechterhält, indem es semantische Inkonsistenzen vermeidet und die Unabhängigkeit der einzelnen Modalitäten gewährleistet.

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

Topologically Stable Hough Transform

Dieser Artikel stellt eine topologisch stabile Variante der Hough-Transformation vor, die anstelle diskreter Abstimmungen eine kontinuierliche Bewertungsfunktion nutzt, um mittels persistenter Homologie effizient Kandidaten für Linien in Punktwolken zu identifizieren.

Stefan Huber, Kristóf Huszár, Michael Kerber, Martin Uray2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

Das Paper stellt DynamicVGGT vor, ein einheitliches Feed-Forward-Framework, das durch die Einführung eines motion-bewussten zeitlichen Aufmerksamkeitsmoduls und eines dynamischen 3D-Gaussian-Splatting-Kopfs die rekonstruktionsgenauigkeit für 4D-Szenen im autonomen Fahren durch die gemeinsame Vorhersage von aktuellen und zukünftigen Punktkarten signifikant verbessert.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Die Arbeit stellt WaDi vor, ein effizientes Ein-Schritt-Distillationsframework für Bildsynthese, das auf der Erkenntnis basiert, dass Richtungsänderungen in den Gewichten entscheidend sind, und durch den neuartigen LoRaD-Adapter sowie Variational Score Distillation (VSD) state-of-the-art Ergebnisse bei minimalem Trainierparameteraufwand erzielt.

Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Diese Arbeit stellt eine lernfreie Methode zur 6D-Objektpose-Verfolgung vor, die die hohe zeitliche Auflösung von Event-Kameras nutzt, um durch eine Kombination aus ereignisbasiertem optischem Fluss und einer template-basierten Korrektur auch bei schnellen Bewegungen präzise Ergebnisse zu erzielen, wo herkömmliche RGB-D-Systeme oder tiefe neuronale Netze an ihre Grenzen stoßen.

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

Prototype-Guided Concept Erasure in Diffusion Models

Die vorgestellte Methode nutzt Prototypen, die aus latenten Embeddings abgeleitet werden, um als negative Konditionierungssignale zu wirken und damit Diffusionsmodelle zuverlässig von breiten Konzepten wie Gewalt oder Sexualität zu befreien, ohne die generelle Bildqualität zu beeinträchtigen.

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Das Paper stellt OSCAR vor, eine neuartige Methode zur akustischen neuralen impliziten Darstellung, die die 3D-Rekonstruktion von Wirbelsäulenstrukturen aus unvollständigen Ultraschalldaten durch eine label-freie, auf der Bilderscheinung basierende Formvollendung verbessert und dabei die Genauigkeit gegenüber dem aktuellen Stand der Technik um 80 % steigert.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Novel Semantic Prompting for Zero-Shot Action Recognition

Die Arbeit stellt SP-CLIP vor, ein leichtgewichtiges Framework, das durch strukturierte semantische Prompts auf mehreren Abstraktionsebenen die Zero-Shot-Erkennung von Aktionen in vortrainierten Vision-Language-Modellen ohne zusätzliche Parameter erheblich verbessert.

Salman Iqbal, Waheed Rehman2026-03-10💻 cs

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Die Autoren stellen eine retrieval-basierte Methode zur Generierung von CT-Bildern aus Text vor, die durch den Abruf und die Nutzung anatomischer Annotationen ähnlicher klinischer Fälle als struktureller Proxy die anatomische Konsistenz und räumliche Kontrollierbarkeit von textbedingten Diffusionsmodellen verbessert.

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Diese Arbeit stellt ein neues Fine-Tuning-Framework vor, das die Robustheit von Vision Transformern gegenüber Verteilungsverschiebungen verbessert, indem es die Modellentscheidungen durch automatisch generierte, konzeptbasierte Masken auf semantisch relevante Objektmerkmale lenkt und so den Fokus von irreführenden Hintergrundkorrelationen abwendet.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

Die Arbeit stellt HDR-NSFF vor, ein neuartiges Framework, das durch die Modellierung dynamischer HDR-Szenen als kontinuierliche 4D-Funktion von Raum und Zeit herkömmliche 2D-basierte HDR-Methoden überwindet, um ghosting-freie, physikalisch plausible Ergebnisse für die HDR-View-Synthese aus monokularen Videos mit wechselnden Belichtungen zu erzielen.

Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh2026-03-10💻 cs

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Die Arbeit stellt SlowBA vor, einen neuartigen Backdoor-Angriff auf VLM-basierte GUI-Agenten, der durch eine zweistufige Belohnungsinjektion und realistische Trigger-Muster gezielt die Antwortlatenz erhöht, ohne dabei die Aufgabengenauigkeit zu beeinträchtigen.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Diese Studie vergleicht die Leistung von Menschen und KI-Modellen bei der egozentrischen Aktionserkennung unter verschiedenen räumlichen und zeitlichen Manipulationen und zeigt, dass Menschen stark auf semantisch kritische, spärliche Hinweise wie Hand-Objekt-Interaktionen angewiesen sind, während KI-Modelle eher kontextuelle Merkmale nutzen und eine andere Robustheit gegenüber zeitlichen Störungen aufweisen.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Diese Arbeit stellt ein allgemeines Rahmenwerk zur Bewertung von Heatmaps bei Multiple-Instance-Learning-Modellen in der Histopathologie vor und zeigt durch ein groß angelegtes Benchmarking, dass Perturbation-, LRP- und IG-Methoden Attention-basierten Ansätzen überlegen sind, um zuverlässigere Validierungen und biologische Erkenntnisse zu ermöglichen.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Local-Global Prompt Learning via Sparse Optimal Transport

Die Arbeit stellt SOT-GLP vor, eine Methode zur Few-Shot-Anpassung von Vision-Language-Modellen, die durch die Nutzung von Sparse Optimal Transport eine redundanzfreie Aufteilung lokaler Bildregionen auf klassenspezifische Prompts ermöglicht und dabei sowohl die Klassifizierungsgenauigkeit als auch die Out-of-Distribution-Robustheit verbessert.

Deniz Kizaro\u{g}lu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu, Alptekin Temizel2026-03-10💻 cs

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Die Arbeit stellt $\Delta$ VLA vor, ein prior-geführtes Vision-Language-Action-Modell, das durch die Extraktion eines aktuellen Weltwissens-Priors, die Quantisierung latenter Weltveränderungen und eine bedingte Aufmerksamkeitsmechanik die Robotersteuerung effizienter und leistungsfähiger macht, indem es sich auf die Modellierung von Veränderungen statt auf die Vorhersage absoluter zukünftiger Zustände konzentriert.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

Diese Arbeit stellt mit UniDiffDA ein einheitliches Analyseframework für diffusionsbasierte Daten-Augmentierung vor, das durch eine systematische Zerlegung in Kernkomponenten und eine umfassende, faire Benchmark-Studie unter einheitlichen Bedingungen praktische Einblicke in die Stärken und Grenzen verschiedener Methoden liefert.

Zekun Li, Yinghuan Shi, Yang Gao, Dong Xu2026-03-10💻 cs

← Zurück Weiter →

cs.CV