cs.CV Arbeiten | Gist.Science

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Die Autoren stellen VeilGen und DeVeiler vor, ein System, das mittels eines generativen Modells und latenter Transmission- sowie Blendkarten realistische Linsenblendung simuliert und darauf aufbauend eine physikalisch fundierte Restaurierung für vereinfachte optische Systeme ermöglicht.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

Die vorgestellte Arbeit führt einen Unified Attention-Mamba (UAM)-Backbone ein, der die Vorteile von Attention- und Mamba-Modulen flexibel vereint und in einem multimodalen Framework für die Klassifizierung von Tumorzellen sowie die Bildsegmentierung einen neuen State-of-the-Art auf öffentlichen Benchmarks erreicht.

Taixi Chen, Jingyun Chen, Nancy Guo2026-03-09💻 cs

EgoCogNav: Cognition-aware Human Egocentric Navigation

Das Paper stellt EgoCogNav, ein multimodales Framework zur Vorhersage von menschlicher Egocentric-Navigation durch die Integration kognitiver Unsicherheitsfaktoren, und führt dazu den neuen CEN-Datensatz mit realen Aufnahmen ein.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

Die Arbeit stellt SyncMV4D vor, ein bahnbrechendes Modell, das erstmals synchronisierte Multi-View-Videos und 4D-Bewegungen für Hand-Objekt-Interaktionen durch die gemeinsame Generierung visueller und dynamischer Daten in einem geschlossenen Regelkreis erzeugt, um so Realismus und geometrische Konsistenz zu verbessern.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

Reversible Inversion for Training-Free Exemplar-guided Image Editing

Die Arbeit stellt ReInversion vor, eine trainingsfreie Methode für exemplarbasierte Bildbearbeitung, die durch einen zweistufigen Reversiblen Inversionsprozess und eine maskengesteuerte selektive Denoisierung eine state-of-the-art Leistung bei minimalem Rechenaufwand erzielt.

Yuke Li, Lianli Gao, Ji Zhang, Pengpeng Zeng, Lichuan Xiang, Hongkai Wen, Heng Tao Shen, Jingkuan Song2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

Die vorgestellte Studie entwickelt eine geschlechtsspezifische Registrierungsmethode für Ganzkörper-MRT-Bilder der UK Biobank, die durch die Nutzung von Gewebemasken (subkutanes Fett und Muskulatur) die Genauigkeit im Vergleich zu rein intensitätsbasierten und anderen etablierten Verfahren signifikant verbessert und somit präzisere raumbezogene Analysen medizinischer Daten ermöglicht.

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

Die Arbeit stellt UniTS vor, ein einheitliches generatives Spatio-Temporal-Modell auf Basis von Flow Matching, das durch den Einsatz eines Diffusion Transformers mit spezialisierten Komponenten wie dem Adaptive Condition Injector und dem Spatiotemporal-aware Modulator verschiedene Fernerkundungsaufgaben wie Rekonstruktion, Wolkenentfernung, Veränderungserkennung und Vorhersage in einem einzigen Rahmen vereint und dabei bestehende spezialisierte Modelle übertrifft.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

Diese Arbeit stellt ein rechen-effizientes, punktcloud-basiertes Framework für die ereignisgesteuerte menschliche Pose-Schätzung vor, das durch die Ausnutzung räumlich-zeitlicher Eigenschaften von Event-Streams und spezielle Module zur zeitlichen Modellierung sowie zur Kantenverstärkung die Leistung auf dem DHP19-Datensatz im Vergleich zu bestehenden Methoden signifikant verbessert.

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

Der Artikel stellt DFIR-DETR vor, einen Transformer-basierten Detektor, der durch dynamische Inhalts-Feature-Aggregation, eine normerhaltende Feature-Pyramide und eine frequenzdomänenbasierte iterative Verfeinerung die Erkennung kleiner Objekte in komplexen Szenen verbessert.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Fast-BEV++: Fast by Algorithm, Deployable by Design

Fast-BEV++ ist ein neuartiges, rein visuelles BEV-Wahrnehmungsframework, das durch eine hardwareoptimierte Architektur und einen lernfähigen Tiefenmodul einen neuen State-of-the-Art bei der Genauigkeit auf dem nuScenes-Datensatz erreicht und gleichzeitig eine Echtzeit-Inferenz von über 134 FPS auf Edge-Plattformen ermöglicht, ohne dabei auf benutzerdefinierte Kernel angewiesen zu sein.

Yuanpeng Chen, Hui Song, Sheng Yang, Wei Tao, Shanhui Mo, Shuang Zhang, Xiao Hua, Tiankun Zhao2026-03-09💻 cs

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

Die Autoren stellen einen neuen Rahmen vor, der submodulare Auswahl mit schichtweiser, gradientenbasierter Unsicherheitsschätzung kombiniert, um die Robustheit und Zuverlässigkeit von visuellen Erklärungen für Deep-Learning-Modelle sowohl unter Out-of-Distribution-Bedingungen als auch in in-Distribution-Szenarien zu verbessern.

Madhav Gupta, Vishak Prasad C, Ganesh Ramakrishnan2026-03-09🤖 cs.LG

Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement

Das Paper stellt Photo3D vor, ein Framework, das durch die Nutzung von GPT-4o-Image-generierten Bildern, eine struktur-angepasste Multi-View-Synthese und eine detailverstärkende Nachbearbeitung die photorealistische 3D-Generierung übertrifft, indem es die Konsistenz von Geometrie und Textur sicherstellt.

Xinyue Liang, Zhinyuan Ma, Lingchen Sun, Yanjun Guo, Lei Zhang2026-03-09💻 cs

Modular Neural Image Signal Processing

Diese Arbeit stellt ein modulares, vollständig lernbasiertes Framework für die neuronale Bildsignalverarbeitung vor, das durch seine hohe Modularität nicht nur präzise und skalierbare Ergebnisse liefert, sondern auch eine flexible Anpassung an verschiedene Kameras und Benutzerpräferenzen sowie eine unbegrenzte Nachbearbeitung ermöglicht.

Mahmoud Afifi, Zhongling Wang, Ran Zhang, Michael S. Brown2026-03-09💻 cs

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Diese Studie stellt eine neuartige, patch-basierte Methode zur topologischen Datenanalyse (TDA) für CT-Bilder vor, die im Vergleich zu herkömmlichen 3D-Würfelkomplexen und radiomischen Merkmalen sowohl die Klassifikationsleistung als auch die Recheneffizienz signifikant verbessert und durch das Python-Paket „Patch-TDA" zugänglich gemacht wird.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

Die Arbeit stellt VTP vor, ein neuartiges Framework für das Vor-Training visueller Tokenizer, das durch die gemeinsame Optimierung von Bild-Text-Kontrast, Selbstüberwachung und Rekonstruktion eine skalierbare, semantisch reiche Latentraum-Repräsentation ermöglicht, die die Leistung von Generationsmodellen signifikant verbessert.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

Das Paper CASA stellt eine effiziente Vision-Language-Architektur vor, die durch die Wiedereinführung und Optimierung von Cross-Attention-Mechanismen anstelle von Token-Einfügung eine signifikante Reduzierung von Speicher- und Rechenaufwand bei gleichzeitig hoher Leistung, insbesondere für Echtzeit-Videoanwendungen, ermöglicht.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

Pretraining Frame Preservation for Lightweight Autoregressive Video History Embedding

Diese Arbeit stellt einen leichten Encoder vor, der durch eine Vortrainierungsphase mit Frame-Query-Zielsetzung und anschließendes Fine-Tuning lange Videohistorien in kompakte Embeddings überführt, um bei begrenzten Ressourcen eine konsistente autoregressive Videogenerierung zu ermöglichen.

Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

Die Arbeit stellt Spatial4D-Bench vor, einen umfassenden Benchmark mit etwa 40.000 Frage-Antwort-Paaren und 18 Aufgaben in sechs kognitiven Kategorien, der die erheblichen Defizite aktueller multimodaler Großsprachenmodelle bei der 4D-räumlichen Intelligenz im Vergleich zum menschlichen Niveau aufzeigt.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

Bayesian Monocular Depth Refinement via Neural Radiance Fields

Die Arbeit stellt MDENeRF vor, einen iterativen Rahmen, der mittels Bayes'scher Fusion monokulare Tiefenschätzungen mit unsicherheitsbasierten Details aus Neural Radiance Fields verfeinert, um globale Struktur und feine geometrische Details zu kombinieren.

Arun Muthukkumar2026-03-09🤖 cs.LG

FlyPose: Towards Robust Human Pose Estimation From Aerial Views

Die Arbeit stellt FlyPose vor, eine leichte Top-Down-Pipeline zur robusten menschlichen Pose-Schätzung aus Luftaufnahmen, die durch Multi-Dataset-Training die Genauigkeit signifikant verbessert, auf einem Jetson Orin AGX in Echtzeit läuft und mit dem neuen FlyPose-104-Dataset ergänzt wird.

Hassaan Farooq, Marvin Brenner, Peter Stütz2026-03-09💻 cs

← Zurück Weiter →