DP-aware AdaLN-Zero: Taming Conditioning-Induced Heavy-Tailed Gradients in Differentially Private Diffusion

Die Arbeit stellt DP-aware AdaLN-Zero vor, einen sensitivitätsbewussten Konditionierungsmechanismus für Diffusions-Transformer, der durch die Begrenzung konditionsinduzierter Gradienten-Schwerpunkte die Verzerrung durch das Clipping im DP-SGD-Verfahren reduziert und so die Leistung bei der Erhaltung der Privatsphäre für Zeitreihenaufgaben signifikant verbessert.

Tao Huang, Jiayang Meng, Xu Yang + 2 more2026-02-27🤖 cs.LG

Coded-E2LF: Coded Aperture Light Field Imaging from Events

Die Autoren stellen Coded-E2LF vor, eine reinereignisbasierte Methode zur Rekonstruktion eines 4D-Lichtfelds mit Pixelgenauigkeit unter Verwendung einer codierten Blende und einer stationären Ereigniskamera, was eine Hardwarevereinfachung gegenüber früheren hybriden Ansätzen ermöglicht und erstmals die alleinige Nutzung von Ereignisdaten für diese Aufgabe demonstriert.

Tomoya Tsuchida, Keita Takahashi, Chihiro Tsutake + 2 more2026-02-27💻 cs

Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

Die Arbeit stellt einen neuen Ansatz zur monokularen, offen-vokabularen 3D-Okkupationsvorhersage für Innenräume vor, der auf einer geometrie-only-Supervision und einer verbesserten 3D-Language-Embedded-Gaussians-Repräsentation basiert, um durch innovative Techniken wie einen opazitätsbewussten Poisson-Ansatz und ein progressives Temperatur-Decay-Verfahren die Herausforderungen komplexer Indoor-Umgebungen zu meistern und neue State-of-the-Art-Ergebnisse auf Occ-ScanNet zu erzielen.

Changqing Zhou, Yueru Luo, Han Zhang + 2 more2026-02-27💻 cs

SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling

Das Paper stellt SPMamba-YOLO vor, ein neuartiges Unterwasser-Objekterkennungsnetzwerk, das durch die Integration von SPPELAN für Multi-Scale-Feature-Enhancement, PSA-Mechanismen und Mamba-basiertem State-Space-Modeling die Herausforderungen wie Lichtabschwächung und Hintergrundclutter überwindet und auf dem URPC2022-Datensatz eine signifikant höhere Genauigkeit als der YOLOv8n-Baseline erreicht.

Guanghao Liao, Zhen Liu, Liyuan Cao + 2 more2026-02-27💻 cs

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Die Arbeit stellt ViCLIP-OT vor, das erste fundamentale Vision-Sprach-Modell für die vietnamesische Bild-Text-Retrieval, das durch die Integration eines optischen Transport-basierten Verlusts (SIGROT) in CLIP-ähnliches kontrastives Lernen die Leistung in in-domänen und Zero-Shot-Szenarien signifikant verbessert.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-02-27🤖 cs.AI