cs.CV Arbeiten | Gist.Science

FedEU: Evidential Uncertainty-Driven Federated Fine-Tuning of Vision Foundation Models for Remote Sensing Image Segmentation

Der Artikel stellt FedEU vor, einen evidenzbasierten Unsicherheitsrahmen für das federierte Fine-Tuning von Vision-Grundmodellen zur Fernerkundungssegmentierung, der durch personalisierte Unsicherheitsmodellierung und eine adaptive Top-k-Aggregation robuste und zuverlässige Ergebnisse in heterogenen Umgebungen gewährleistet.

Xiaokang Zhang, Xuran Xiong, Jianzhong Huang, Lefei Zhang2026-03-10💻 cs

EVLF: Early Vision-Language Fusion for Generative Dataset Distillation

Der Artikel stellt EVLF (Early Vision-Language Fusion) vor, eine Plug-and-Play-Methode für die generative Datensatz-Distillation, die durch eine frühe Fusion von Text- und Visual-Embeddings in Diffusionsmodellen semantisch treue und visuell kohärente synthetische Daten erzeugt, um die Genauigkeit bei nachgelagerten Klassifikationsaufgaben zu verbessern.

Wenqi Cai, Yawen Zou, Guang Li, Chunzhi Gu, Chao Zhang2026-03-10💻 cs

Multi-Modal Decouple and Recouple Network for Robust 3D Object Detection

Die vorgeschlagene Multi-Modal Decouple and Recouple Network verbessert die robuste 3D-Objekterkennung unter Datenkorruption, indem sie BEV-Features in modality-invariante und modality-spezifische Anteile zerlegt, diese durch gegenseitige Kompensation wiederherstellt und über spezialisierte Experten sowie eine adaptive Fusion verarbeitet.

Rui Ding, Zhaonian Kuang, Yuzhe Ji, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

RobustSCI: Beyond Reconstruction to Restoration for Snapshot Compressive Imaging under Real-World Degradations

Die Arbeit stellt mit RobustSCI einen bahnbrechenden Ansatz vor, der die Snapshot Compressive Imaging (SCI) von der bloßen Rekonstruktion zur Wiederherstellung degradierter Szenen erweitert, indem sie erstmals ein umfassendes Benchmark und ein neuartiges Netzwerk mit dekonvolutions- und frequenzbasierten Komponenten einführt, um auch unter realen Bedingungen wie Bewegungsunschärfe und schwachem Licht hochwertige Ergebnisse zu erzielen.

Hao Wang, Yuanfan Li, Qi Zhou, Zhankuo Xu, Jiong Ni, Xin Yuan2026-03-10💻 cs

RayD3D: Distilling Depth Knowledge Along the Ray for Robust Multi-View 3D Object Detection

Die Arbeit stellt RayD3D vor, eine Methode zur robusten multi-sichtbasierten 3D-Objekterkennung, die durch die gezielte Destillation von Tiefenwissen entlang der Sichtstrahlen von Kamera zu LiDAR die Übertragung irrelevanter Informationen minimiert und so die Robustheit bestehender BEV-Modelle unter verschiedenen Datenkorruptionen signifikant verbessert, ohne die Inferenzkosten zu erhöhen.

Rui Ding, Zhaonian Kuang, Zongwei Zhou, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

Die Arbeit stellt DocCogito vor, ein einheitliches Framework für das Dokumentenverständnis, das durch die Integration globaler Layout-Vorwissen und einer deterministischen, regionsbasierten visuell-semantischen Kette (VSC) sowie eines progressiven Trainingsansatzes eine präzise, evidenzgestützte Schlussfolgerung in multimodalen großen Sprachmodellen ermöglicht.

Yuchuan Wu, Minghan Zhuo, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue2026-03-10💻 cs

AMR-CCR: Anchored Modular Retrieval for Continual Chinese Character Recognition

Die Arbeit stellt AMR-CCR vor, ein verankerndes modulares Abrufsystem für die kontinuierliche Erkennung chinesischer Schriftzeichen, das durch einen skriptbedingten Injektionsmechanismus und einen multi-prototypischen Wörterbuchansatz das Problem des wachsenden Klassenraums und der stilistischen Vielfalt bei der Digitalisierung des kulturellen Erbes löst und durch den neuen EvoCON-Benchmark evaluiert wird.

Yuchuan Wu, Yinglian Zhu, Haiyang Yu, Ke Niu, Bin Li, Xiangyang Xue2026-03-10💻 cs

High-Fidelity Medical Shape Generation via Skeletal Latent Diffusion

Diese Arbeit stellt ein neuartiges Framework zur hochauflösenden Generierung medizinischer Formen vor, das einen differentiellen Skelettisierungsmodul mit einem latenten Diffusionsmodell kombiniert, um die geometrische Komplexität anatomischer Strukturen effizient zu erfassen und gleichzeitig eine neue große Datensammlung namens MedSDF bereitstellt.

Guoqing Zhang, Jingyun Yang, Siqi Chen, Anping Zhang, Yang Li2026-03-10💻 cs

A Unified View of Drifting and Score-Based Models

Diese Arbeit stellt eine einheitliche Theorie vor, die Drifting-Modelle als score-basierte Methode auf kernel-gesättigten Verteilungen interpretiert und zeigt, dass der Drift-Feld für Gauß-Kerne exakt der Score-Differenz entspricht, während für Laplace-Kerne präzise Fehlerabschätzungen für niedrige Temperaturen und hohe Dimensionen hergeleitet werden.

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao2026-03-10🤖 cs.LG

EvolveReason: Self-Evolving Reasoning Paradigm for Explainable Deepfake Facial Image Identification

Der Artikel stellt EvolveReason vor, ein sich selbst weiterentwickelndes Paradigma, das durch menschenähnliches Chain-of-Thought-Reasoning, die Erfassung von Fälschungs-Latenträumen und eine verstärkende Lernstrategie die Genauigkeit und Erklärbarkeit bei der Identifizierung von Deepfake-Gesichtern verbessert.

Binjia Zhou, Dawei Luo, Shuai Chen, Feng Xu, Seow, Haoyuan Li, Jiachi Wang, Jiawen Wang, Zunlei Feng, Yijun Bei2026-03-10💻 cs

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

Die Arbeit stellt SketchGraphNet vor, einen speicher-effizienten hybriden Graph-Transformer für die Erkennung von Großskizzen, der auf einem neuartigen Benchmark namens SketchGraph mit 3,44 Millionen graphenbasierten Skizzen trainiert wurde und dabei sowohl die Genauigkeit als auch die Ressourceneffizienz im Vergleich zu bestehenden Methoden signifikant verbessert.

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

ACCURATE: Arbitrary-shaped Continuum Reconstruction Under Robust Adaptive Two-view Estimation

Das Paper stellt ACCURATE vor, ein 3D-Rekonstruktionsframework, das neuronale Segmentierung mit einem geometrie-beschränkten Topologie-Traversierungs- und Dynamischen-Programmierungsalgorithmus kombiniert, um die präzise und robuste Rekonstruktion beliebig geformter, langer, schlanker Kontinuumskörper wie Katheter aus zwei Röntgenansichten zu ermöglichen.

Yaozhi Zhang, Shun Yu, Yugang Zhang, Yang Liu2026-03-10💻 cs

Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach

Die vorgestellte Arbeit schlägt einen semantisch-geometrischen Ansatz vor, der die Robustheit der UAV-Satelliten-Kreuzblick-Geolokalisierung unter realen Skalierungsunsicherheiten verbessert, indem sie kleine Fahrzeuge als semantische Anker nutzt, um über ein entkoppeltes stereoskopisches Projektionsmodell den absoluten Maßstab zu rekonstruieren und die Bildausrichtung anzupassen.

Yibin Ye, Shuo Chen, Kun Wang, Xiaokai Song, Jisheng Dang, Qifeng Yu, Xichao Teng, Zhang Li2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Die Arbeit stellt UniLongGen vor, eine trainingsfreie Inferenzstrategie, die durch dynamische Kuratierung und gezieltes Vergessen störender visueller Informationen die Zuverlässigkeit von Unified Multimodal Models bei der Generierung langer, interleaved Bilder-Text-Narrative sicherstellt.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

Das Paper stellt CONSTANT vor, ein neuartiges Diffusionsmodell für die One-Shot-Handschreibengenerierung, das durch Style-Aware Quantization und patch-basierte kontrastive Lernverfahren die Herausforderung meistert, komplexe und diverse Handschriftstile aus nur einem Referenzbild realistisch und detailliert nachzubilden.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

Das Paper stellt DreamSAC vor, ein Framework, das durch eine unsupervisierte Symmetrie-Exploration mit Hamilton-basiertem Neugier-Anreiz und einem Hamilton-basierten Weltmodell physikalische Invarianzen lernt, um die Extrapolationsfähigkeit von Agenten in 3D-Physiksimulationen signifikant zu verbessern.

Jinzhou Tang, Fan Feng, Minghao Fu, Wenjun Lin, Biwei Huang, Keze Wang2026-03-10🤖 cs.LG

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

ReconDrive ist ein feed-forward Framework, das den 3D-Foundation-Modell VGGT durch hybride Vorhersageköpfe und eine statisch-dynamische 4D-Kompositionsstrategie erweitert, um für autonome Fahrzeugszenen eine skalierbare, hochpräzise und extrem schnelle 4D-Gaussian-Splatting-Rekonstruktion zu ermöglichen, die in der Qualität mit optimierungsintensiven Methoden konkurriert, aber um Größenordnungen schneller ist.

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning

Diese Arbeit stellt einen auf aktiver Inferenz basierenden Rahmen für die Mikrogestenerkennung vor, der durch expected-free-energy-gesteuerte zeitliche Abtastung und unsicherheitsbasiertes adaptives Lernen robuste und interpretierbare Ergebnisse unter schwierigen Bedingungen wie geringen Datenmengen und Rauschen ermöglicht.

Weijia Feng, Jingyu Yang, Ruojia Zhang, Fengtao Sun, Qian Gao, Chenyang Wang, Tongtong Su, Jia Guo, Xiaobai Li, Minglai Shao2026-03-10💻 cs

PureCC: Pure Learning for Text-to-Image Concept Customization

Der Paper stellt PureCC vor, eine Methode zur Text-zu-Bild-Konzeptanpassung, die durch einen entkoppelten Lernansatz und einen adaptiven Führungsmechanismus eine hochpräzise Personalisierung ermöglicht, ohne dabei das ursprüngliche Verhalten und die Fähigkeiten des Modells zu beeinträchtigen.

Zhichao Liao, Xiaole Xian, Qingyu Li, Wenyu Qin, Meng Wang, Weicheng Xie, Siyang Song, Pingfa Feng, Long Zeng, Liang Pan2026-03-10💻 cs

Brain-WM: Brain Glioblastoma World Model

Das Paper stellt Brain-WM vor, ein bahnbrechendes Weltmodell für Glioblastome, das mittels einer neuartigen Y-förmigen Mixture-of-Transformers-Architektur die ko-evolutionäre Dynamik zwischen Tumor und Behandlung simuliert, um sowohl die zukünftige MRT-Bildgebung als auch die Behandlungsplanung präzise vorherzusagen.

Chenhui Wang, Boyun Zheng, Liuxin Bao, Zhihao Peng, Peter Y. M. Woo, Hongming Shan, Yixuan Yuan2026-03-10💻 cs

← Zurück Weiter →