cs.CV Arbeiten | Gist.Science

LoR-LUT: Learning Compact 3D Lookup Tables via Low-Rank Residuals

Die Arbeit stellt LoR-LUT vor, eine einheitliche und kompakte Methode zur Generierung von 3D-Lookup-Tables mittels niedrigrangiger Restkorrekturen, die eine hohe Bildqualität bei geringem Speicherbedarf und verbesserter Interpretierbarkeit durch ein interaktives Visualisierungstool ermöglicht.

Ziqi Zhao, Abhijit Mishra, Shounak Roychowdhury2026-02-27💻 cs

DP-aware AdaLN-Zero: Taming Conditioning-Induced Heavy-Tailed Gradients in Differentially Private Diffusion

Die Arbeit stellt DP-aware AdaLN-Zero vor, einen sensitivitätsbewussten Konditionierungsmechanismus für Diffusions-Transformer, der durch die Begrenzung konditionsinduzierter Gradienten-Schwerpunkte die Verzerrung durch das Clipping im DP-SGD-Verfahren reduziert und so die Leistung bei der Erhaltung der Privatsphäre für Zeitreihenaufgaben signifikant verbessert.

Tao Huang, Jiayang Meng, Xu Yang + 2 more2026-02-27🤖 cs.LG

Spectrally Distilled Representations Aligned with Instruction-Augmented LLMs for Satellite Imagery

Die Arbeit stellt SATtxt vor, ein spektral distilliertes Vision-Language-Modell, das während des Trainings multispektrale Informationen nutzt, um bei der Inferenz ausschließlich mit RGB-Bildern zu arbeiten und so die Leistung in Zero-Shot-Klassifizierung und Bildersuche für die Erdbeobachtung signifikant zu verbessern.

Minh Kha Do, Wei Xiang, Kang Han + 5 more2026-02-27💻 cs

Coded-E2LF: Coded Aperture Light Field Imaging from Events

Die Autoren stellen Coded-E2LF vor, eine reinereignisbasierte Methode zur Rekonstruktion eines 4D-Lichtfelds mit Pixelgenauigkeit unter Verwendung einer codierten Blende und einer stationären Ereigniskamera, was eine Hardwarevereinfachung gegenüber früheren hybriden Ansätzen ermöglicht und erstmals die alleinige Nutzung von Ereignisdaten für diese Aufgabe demonstriert.

Tomoya Tsuchida, Keita Takahashi, Chihiro Tsutake + 2 more2026-02-27💻 cs

CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

Die Arbeit stellt CGSA vor, ein neuartiges Framework für die quellfreie Domänenanpassung bei der Objekterkennung, das erstmals objektszentriertes Lernen durch eine hierarchische Slot-Awareness und einen klassenleitenden Slot-Kontrast in einen DETR-basierten Detektor integriert, um domäneninvariante Anpassung ohne Zugriff auf Quelldaten zu ermöglichen.

Boyang Dai, Zeng Fan, Zihao Qi + 2 more2026-02-27🤖 cs.AI

Instruction-based Image Editing with Planning, Reasoning, and Generation

Diese Arbeit stellt eine neue Methode für die instruktionsbasierte Bildbearbeitung vor, die durch eine Multi-Modality-Chain-of-Thought-Architektur Planung, reasoning für Bearbeitungsbereiche und die eigentliche Bildgenerierung integriert, um komplexe Szenen besser zu verstehen und die Editierqualität zu verbessern.

Liya Ji, Chenyang Qi, Qifeng Chen2026-02-27🤖 cs.AI

CRAG: Can 3D Generative Models Help 3D Assembly?

Das Paper stellt CRAG vor, ein neuartiges 3D-Assemblierungsverfahren, das die Generierung fehlender Geometrie mit der Pose-Schätzung kombiniert, um durch gegenseitige Verstärkung von strukturellen Priors und globalem Formkontext robustere Ergebnisse als reine Pose-Schätzmethode zu erzielen.

Zeyu Jiang, Sihang Li, Siqi Tan + 8 more2026-02-27💻 cs

QuadSync: Quadrifocal Tensor Synchronization via Tucker Decomposition

Die Arbeit stellt ein neuartiges Framework vor, das die praktische Anwendbarkeit von Quadrifokaltensoren zur Synchronisation von $n$ Kameras durch eine effiziente Zerlegung mittels Tucker-Zerlegung und eine gemeinsame Synchronisation mit trifokalen und bifokalen Tensoren demonstriert.

Daniel Miao, Gilad Lerman, Joe Kileel2026-02-27🔢 math

Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models

Die Arbeit stellt einen einfachen, einsetzbaren Modul namens MWAM vor, der mithilfe einer Frequenz-Ratio-Metrik das Ungleichgewicht beim Lernen multimodaler Modelle erkennt und durch dynamische Gewichtsverteilung die Robustheit gegenüber fehlenden Modalitäten verbessert.

Siqi Lu, Wanying Xu, Yongbin Zheng + 3 more2026-02-27💻 cs

Interactive Medical-SAM2 GUI: A Napari-based semi-automatic annotation tool for medical images

Dieses Paper stellt eine Open-Source-Napari-Anwendung vor, die Medical-SAM2 für eine effiziente, halbautomatische 3D-Medizinbildannotation integriert und so eine lokale, kohortenorientierte Workflows für Navigation, Propagierung und quantitative Exporte ermöglicht.

Woojae Hong, Jong Ha Hwang, Jiyong Chung + 3 more2026-02-27💻 cs

Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

Die Autoren schlagen einen praktischen Ansatz zur Erstellung eines groß angelegten Audio-Visuellen Qualitätsbewertungsdatensatzes (YT-NTU-AVQ) durch Crowdsourcing vor, der durch eine robuste Experimentierumgebung, eine systematische Datenvorbereitung und erweiterte Annotationen die bisherigen Einschränkungen bestehender Datensätze überwindet.

Renyu Yang, Jian Jin, Lili Meng + 4 more2026-02-27💻 cs

Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

Die Arbeit stellt einen neuen Ansatz zur monokularen, offen-vokabularen 3D-Okkupationsvorhersage für Innenräume vor, der auf einer geometrie-only-Supervision und einer verbesserten 3D-Language-Embedded-Gaussians-Repräsentation basiert, um durch innovative Techniken wie einen opazitätsbewussten Poisson-Ansatz und ein progressives Temperatur-Decay-Verfahren die Herausforderungen komplexer Indoor-Umgebungen zu meistern und neue State-of-the-Art-Ergebnisse auf Occ-ScanNet zu erzielen.

Changqing Zhou, Yueru Luo, Han Zhang + 2 more2026-02-27💻 cs

SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling

Das Paper stellt SPMamba-YOLO vor, ein neuartiges Unterwasser-Objekterkennungsnetzwerk, das durch die Integration von SPPELAN für Multi-Scale-Feature-Enhancement, PSA-Mechanismen und Mamba-basiertem State-Space-Modeling die Herausforderungen wie Lichtabschwächung und Hintergrundclutter überwindet und auf dem URPC2022-Datensatz eine signifikant höhere Genauigkeit als der YOLOv8n-Baseline erreicht.

Guanghao Liao, Zhen Liu, Liyuan Cao + 2 more2026-02-27💻 cs

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Die Arbeit stellt ViCLIP-OT vor, das erste fundamentale Vision-Sprach-Modell für die vietnamesische Bild-Text-Retrieval, das durch die Integration eines optischen Transport-basierten Verlusts (SIGROT) in CLIP-ähnliches kontrastives Lernen die Leistung in in-domänen und Zero-Shot-Szenarien signifikant verbessert.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-02-27🤖 cs.AI

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

Die Arbeit stellt mit SUPERGLASSES das erste umfassende Benchmark für Vision-Language-Modelle im Kontext von Smart Glasses vor und entwickelt den Agenten SUPERLENS, der durch die Integration von Objekterkennung und multimodaler Websuche die Leistung bei visuellen Fragen über externe Wissensquellen signifikant verbessert.

Zhuohang Jiang, Xu Yuan, Haohao Qu + 4 more2026-02-27🤖 cs.AI

No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

Die Arbeit stellt MoFit vor, ein caption-freies Framework für Membership-Inference-Angriffe auf Latent Diffusion Models, das durch die Optimierung modellangepasster synthetischer Embeddings eine effektive Identifizierung von Trainingsdaten auch ohne Zugang zu Originaltextbeschreibungen ermöglicht.

Joonsung Jeon, Woo Jae Kim, Suhyeon Ha + 2 more2026-02-27💻 cs

UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects

Dieses Paper stellt UFO-DETR vor, einen frequenzgesteuerten End-to-End-Detektor, der durch die Integration von LSKNet, DAttention, AIFI und dem neu entwickelten DynFreq-C3-Modul die Erkennung kleiner Objekte in UAV-Bildern bei hoher Effizienz und Genauigkeit verbessert.

Yuankai Chen, Kai Lin, Qihong Wu + 6 more2026-02-27💻 cs

SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs

Die Arbeit stellt SoPE vor, eine neue Positionseingebung auf Basis sphärischer Koordinaten, die die räumliche Wahrnehmung von 3D-LVLMs verbessert, indem sie die geometrische Struktur von Punktwolken erhält und die Winkelabhängigkeiten im Vergleich zur herkömmlichen RoPE-Methode effektiv modelliert.

Guanting Ye, Qiyan Zhao, Wenhao Yu + 7 more2026-02-27🤖 cs.AI

IRSDE-Despeckle: A Physics-Grounded Diffusion Model for Generalizable Ultrasound Despeckling

Die Arbeit stellt IRSDE-Despeckle vor, ein physikbasiertes Diffusionsmodell, das mittels simulierter Trainingsdaten Ultraschallbilder von Speckle-Rauschen befreit, dabei anatomische Strukturen erhält und durch eine Unsicherheitsquantifizierung sowie die Analyse von Domänenverschiebungen die Zuverlässigkeit für den klinischen Einsatz bewertet.

Shuoqi Chen, Yujia Wu, Geoffrey P. Luke2026-02-27💻 cs

HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models

Die Arbeit stellt HulluEdit vor, ein effizientes, referenzfreies Framework, das durch orthogonale Subraum-Editierung Halluzinationen in Large Vision-Language Models in einem einzigen Durchgang reduziert, ohne dabei die visuelle Evidenz zu beeinträchtigen.

Yangguang Lin, Quan Fang, Yufei Li + 3 more2026-02-27💻 cs

← Zurück Weiter →