cs.CV Arbeiten | Gist.Science

DA-Occ: Direction-Aware 2D Convolution for Efficient and Geometry-Preserving 3D Occupancy Prediction in Autonomous Driving

Die Arbeit stellt DA-Occ vor, einen effizienten 2D-Framework-Ansatz für die 3D-Belegungsvorhersage im autonomen Fahren, der durch eine höhenorientierte Projektion und richtungsbewusste Faltungen die geometrische Integrität erhält und dabei Genauigkeit mit Echtzeit-Leistung auf ressourcenbeschränkten Geräten vereint.

Yuchen Zhou, Yan Luo, Xiaogang Wang + 3 more2026-03-02💻 cs

AutoDebias: Automated Framework for Debiasing Text-to-Image Models

Das Paper stellt AutoDebias vor, ein automatisiertes Framework, das mithilfe von Vision-Language-Modellen und CLIP-gesteuertem Training schädliche Backdoor-Bias in Text-zu-Bild-Modellen ohne Vorwissen über die Angriffe identifiziert und neutralisiert, während die Bildqualität erhalten bleibt.

Hongyi Cai, Mohammad Mahdinur Rahman, Mingkang Dong + 7 more2026-03-02💻 cs

Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation

Die Studie stellt AMBER-AFNO als neuen Benchmark für die leichte 3D-Medizinbildsegmentierung vor, der durch den Ersatz von Multi-Head-Self-Attention durch Adaptive Fourier Neural Operators (AFNO) eine quasi-lineare Komplexität und lineare Speicherskalierung bei gleichzeitig state-of-the-art Ergebnissen auf öffentlichen Datensätzen erreicht.

Andrea Dosi, Semanto Mondal, Rajib Chandra Ghosh + 2 more2026-03-02⚡ eess

AnimateScene: Camera-controllable Animation in Any Scene

Der Artikel stellt AnimateScene vor, ein einheitliches Framework, das die Integration von 4D-Human-Animationen in beliebige 3D-Szenen ermöglicht, indem es automatische kollisionsfreie Platzierung, trainingfreie Stilangleichung und die Berücksichtigung dynamischer Kamerabewegungen für kohärente Ergebnisse vereint.

Qingyang Liu, Bingjie Gao, Weiheng Huang + 10 more2026-03-02💻 cs

BeeNet: Reconstructing Flower Shapes from Electric Fields using Deep Learning

Diese Studie zeigt, dass ein auf Deep Learning basierendes U-Net-Modell die geometrischen Formen polarisierbarer Blüten erfolgreich aus den durch geladene Arthropoden erzeugten elektrischen Feldern rekonstruieren kann, was neue Einblicke in die räumliche Informationsverarbeitung der Elektrorezeption bei Insekten ermöglicht.

Jake Turley, Ryan A. Palmer, Isaac V. Chenchiah + 1 more2026-03-02🧬 q-bio

Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models

Diese Arbeit stellt ein neuartiges kontrastives Lernverfahren vor, das durch den Einsatz strukturierter „harter" Beispiele und spezialisierter Verlustfunktionen das Verständnis von Diagrammen in multimodalen Modellen wie CLIP signifikant verbessert und auf Flowchart-Datenbeständen überlegene Ergebnisse bei Bild-Text-Matching und visuellem Fragenbeantworten erzielt.

Hiroshi Sasaki2026-03-02🤖 cs.AI

Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

Die Arbeit stellt „Draw-In-Mind" vor, ein Dataset und ein Unified Multimodal Model, das durch die explizite Zuweisung der Designverantwortung an das Verständnismodul und die Nutzung von Chain-of-Thought-Blueprints den Zustand der Kunst in der Bildbearbeitung bei einer vergleichsweise geringen Parametergröße erreicht.

Ziyun Zeng, David Junhao Zhang, Wei Li + 1 more2026-03-02🤖 cs.AI

MEGS $^{2}$ : Memory-Efficient Gaussian Splatting via Spherical Gaussians and Unified Pruning

Die Arbeit stellt MEGS² vor, ein speichereffizientes Framework für 3D-Gaussian-Splatting, das durch den Ersatz von sphärischen Harmonischen durch sphärische Gauss-Lappen und ein einheitliches Beschneidungsverfahren die VRAM-Nutzung drastisch reduziert, ohne die Wiedergabequalität zu beeinträchtigen.

Jiarui Chen, Yikeng Chen, Yingshuang Zou + 5 more2026-03-02🤖 cs.AI

Activation Function Design Sustains Plasticity in Continual Learning

Die Studie zeigt, dass eine gezielte Gestaltung von Aktivierungsfunktionen, wie die neu vorgestellten Smooth-Leaky-Varianten, eine leichte und domänenübergreifende Methode darstellt, um den Verlust an Plastizität beim kontinuierlichen Lernen zu verhindern, ohne zusätzliche Kapazität oder aufgabenspezifische Anpassungen zu benötigen.

Lute Lillo, Nick Cheney2026-03-02🤖 cs.AI

Unsupervised Representation Learning for 3D Mesh Parameterization with Semantic and Visibility Objectives

Die Arbeit stellt einen unüberwachten, differenzierbaren Rahmen vor, der semantische und Sichtbarkeitsziele nutzt, um die manuelle UV-Parametrisierung von 3D-Meshes zu automatisieren und dabei semantisch konsistente Atlanten mit weniger sichtbaren Nahtartefakten zu erzeugen.

AmirHossein Zamani, Bruno Roy, Arianna Rampini2026-03-02💻 cs

Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving

Das Paper stellt Max-V1 vor, ein schlankes und leistungsstarkes Vision-Language-Modell, das die autonome Fahrzeugsteuerung als sequenzielles Sprachproblem formuliert und durch eine einstufige End-to-End-Generierung von Wegpunkten aus Kameradaten sowie eine statistisch fundierte Überwachung auf dem nuScenes-Datensatz neue State-of-the-Art-Ergebnisse erzielt.

Sheng Yang, Tong Zhan, Guancheng Chen + 2 more2026-03-02🤖 cs.AI

Universal Beta Splatting

Die Arbeit stellt „Universal Beta Splatting" (UBS) vor, ein einheitliches Framework, das 3D-Gaussian-Splatting auf N-dimensionale anisotrope Beta-Kernel erweitert, um räumliche, winkelabhängige und zeitliche Szeneneigenschaften in einer einzigen Darstellung zu modellieren und dabei Echtzeit-Rendering mit überlegener Leistung bei gleichzeitig interpretierbaren Parametern zu ermöglichen.

Rong Liu, Zhongpai Gao, Benjamin Planche + 8 more2026-03-02⚡ eess

CLEAR-IR: Clarity-Enhanced Active Reconstruction of Infrared Imagery

Der Artikel stellt CLEAR-IR vor, ein neuartiges Deep-Learning-Verfahren zur Rekonstruktion von klaren Infrarotbildern aus verrauschten Aufnahmen, das die Leistung von Robotersystemen bei extrem schwacher Beleuchtung verbessert und die Nutzung von in RGB trainierten Modellen ohne aktive Beleuchtung ermöglicht.

Nathan Shankar, Pawel Ladosz, Hujun Yin2026-03-02🤖 cs.LG

The False Promise of Zero-Shot Super-Resolution in Machine-Learned Operators

Die Studie zeigt, dass maschinengelernte Operatoren ohne Nachtraining keine zuverlässige Super-Resolution durchführen können, da sie bei unterschiedlichen Auflösungen an Aliasing und Brüchigkeit leiden, und schlägt stattdessen ein effizientes Multi-Resolution-Trainingsprotokoll zur Lösung dieses Problems vor.

Mansi Sakarvadia, Kareem Hegazy, Amin Totounferoush + 4 more2026-03-02🤖 cs.AI

Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry

Diese Studie nutzt SAEs, um DINOv2 zu interpretieren, und schlägt auf Basis der Analyse von Aufgaben-spezifischen Konzepten sowie der Geometrie der Repräsentationen die Minkowski-Repräsentations-Hypothese vor, welche besagt, dass Tokens durch konvexe Mischungen archetypischer Konzepte in konzeptuellen Räumen gebildet werden.

Thomas Fel, Binxu Wang, Michael A. Lepori + 8 more2026-03-02🤖 cs.AI

Uncertainty Matters in Dynamic Gaussian Splatting for Monocular 4D Reconstruction

Die Arbeit stellt USplat4D vor, ein neuartiges Framework für die monokulare 4D-Rekonstruktion, das durch die Schätzung und Nutzung einer zeitvariablen Unsicherheit pro Gauß-Primitive eine robustere Geometrie bei Verdeckungen und eine höhere Synthesequalität bei extremen Blickwinkeln ermöglicht.

Fengzhi Guo, Chih-Chuan Hsu, Sihao Ding + 1 more2026-03-02🤖 cs.AI

Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Die Autoren stellen ein neuartiges Framework für die halbüberwachte Videoanomalieerkennung vor, das Multimodal Large Language Models nutzt, um hochlevelige Textbeschreibungen von Objektinteraktionen zu generieren, wodurch sowohl die Erkennung komplexer Anomalien als auch die Erklärbarkeit der Ergebnisse verbessert werden.

Furkan Mumcu, Michael J. Jones, Anoop Cherian + 1 more2026-03-02💻 cs

From Volume Rendering to 3D Gaussian Splatting: Theory and Applications

Dieser Tutorial-Überblick stellt die Theorie und Anwendungen von 3D Gaussian Splatting vor, erläutert dessen effiziente Rasterisierung für die Echtzeit-Neusichtsynthese, diskutiert die bestehenden Herausforderungen wie hohen Speicherbedarf und begrenzte Lichteffekte sowie die aktuellen Lösungsansätze und Anwendungsbereiche.

Vitor Pereira Matias, Daniel Perazzo, Vinicius Silva + 4 more2026-03-02💻 cs

Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation

Das Paper stellt "Speculative Verdict" (SV) vor, ein trainingsfreies Framework, das durch die Kombination mehrerer leichter Draft-Experten mit einem starken Verdict-Modell und einem Konsens-Auswahlmechanismus die visuelle Schlussfolgerung in informationsintensiven Bildern effizient verbessert und dabei sowohl die Genauigkeit als auch die Kosteneffizienz steigert.

Yuhan Liu, Lianhui Qin, Shengjie Wang2026-03-02💬 cs.CL

TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

Das Paper stellt TokenCLIP vor, ein Framework für das Zero-Shot-Anomalie-Erkennen, das durch die dynamische Zuordnung visueller Token zu orthogonalen textuellen Teilräumen mittels Optimal-Transport-Problemen eine feingranulare und effiziente Anpassung an verschiedene Anomaliesemantiken ermöglicht.

Qihang Zhou, Binbin Gao, Guansong Pang + 3 more2026-03-02💻 cs

← Zurück Weiter →

cs.CV