cs.CV Arbeiten | Gist.Science

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

Das Paper stellt SCOPE vor, ein plug-and-play-Framework zur Anreicherung von Few-Shot-Prototypen in der 3D-Segmentierung, das ungelabelte Hintergrundinformationen nutzt, um die Leistung bei neuen Kategorien zu steigern und katastrophales Vergessen zu minimieren.

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

Die Arbeit stellt BEVLM vor, ein Framework, das semantisches Wissen aus großen Sprachmodellen in räumlich konsistente Vogelperspektiven-Repräsentationen (BEV) integriert, um die reasoning-Fähigkeiten in komplexen Fahrszenen zu verbessern und die Sicherheit in End-to-End-Steuerungssystemen signifikant zu erhöhen.

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Der Artikel stellt Omni-Diffusion vor, das erste beliebige-zu-beliebige multimodale Sprachmodell, das vollständig auf einem maskierten diskreten Diffusionsansatz basiert und damit das Verständnis sowie die Generierung von Text, Sprache und Bildern in einer einheitlichen Architektur vereint.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Diese Studie zeigt, dass die vermeintlich schwache Klassifizierungsleistung von multimodalen Sprachmodellen (MLLMs) hauptsächlich auf fehlerhafte Evaluierungsprotokolle und verrauschte Ground-Truth-Daten zurückzuführen ist, die durch korrekte Annotationen und optimierte Protokolle behoben werden können, wodurch sich die Lücke zu überwachten Modellen erheblich verringert und MLLMs zudem als wertvolle Werkzeuge für die menschliche Datenerstellung erweisen.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Motion Illusions Generated Using Predictive Neural Networks Also Fool Humans

Die Studie zeigt, dass ein auf prädiktiven neuronalen Netzen basierendes Generierungsmodell (EIGen) neue visuelle Bewegungsillusionen erzeugt, die auch Menschen täuschen, und untermauert damit die Hypothese, dass solche Illusionen durch die Vorhersagen des Gehirns statt durch reine Sinnesreize entstehen.

Lana Sinapayen, Eiji Watanabe2026-03-06💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

Die Arbeit stellt FEP-Nav vor, ein biologisch inspiriertes Framework, das durch die Minimierung der Variational Free Energy mittels eines Top-down-Decoders und adaptiver Normalisierung eine robuste Echtzeit-Wahrnehmungsanpassung für die visuelle Navigation unter unsicheren und verrauschten Bedingungen ermöglicht.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

Die Arbeit stellt InstructHumans vor, ein neuartiges Framework für die instruktionsgesteuerte Textur-Editierung animierbarer 3D-Menschen, das durch eine modifizierte Score Distillation Sampling-Methode (SDS-E) und Regularisierungstechniken konsistente und hochauflösende Änderungen im Vergleich zu bestehenden Methoden ermöglicht.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

Das Paper stellt EasyAnimate vor, ein hocheffizientes Framework zur Videogenerierung auf Basis von Diffusion-Transformern, das durch Hybrid-Fenster-Attention, Reward-Backpropagation und optimierte Trainingsstrategien sowohl die Geschwindigkeit als auch die Qualität der Videoerstellung verbessert und dabei State-of-the-Art-Ergebnisse erzielt.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Motion-Aware Animatable Gaussian Avatars Deblurring

Dieses Paper stellt eine neue Methode vor, die es ermöglicht, scharfe 3D-Gaussian-Avatare direkt aus unscharfen Mehransicht-Videos zu rekonstruieren, indem ein physikalisches Bewegungsunschärfe-Modell mit einem 3D-Bewegungsmodell kombiniert wird, um Mehrdeutigkeiten aufzulösen und eine gemeinsame Optimierung zu ermöglichen.

Muyao Niu, Yifan Zhan, Qingtian Zhu + 5 more2026-03-06💻 cs

Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation

Die Arbeit stellt TABE vor, eine neuartige Pipeline für das zero-shot amodale Video-Objekt-Segmentieren, die mithilfe eines feinabgestimmten, vortrainierten Video-Diffusionsmodells und eines einzigen Startmasken-Query die Verfolgung und vollständige Rekonstruktion von Objekten auch bei vollständiger Verdeckung ermöglicht.

Finlay G. C. Hudson, William A. P. Smith2026-03-06💻 cs

Learnable Sparsity for Vision Generative Models

Diese Arbeit stellt einen retraining-freien, modellunabhängigen Rahmen zur lernbaren strukturellen Pruning von Diffusionsmodellen vor, der durch eine neuartige End-to-End-Zielfunktion und zeitschrittweises Gradienten-Checkpointing bis zu 20 % der Parameter ohne signifikanten Qualitätsverlust entfernt.

Yang Zhang, Er Jin, Wenzhong Liang + 5 more2026-03-06💻 cs

Flatness Guided Test-Time Adaptation for Vision-Language Models

Die vorgestellte Arbeit schlägt einen flachheitsgeleiteten Testzeit-Anpassungsrahmen (FGA) für Vision-Language-Modelle vor, der durch die Nutzung von Sharpness-Aware-Prompt-Tuning während des Trainings und einer darauf aufbauenden Testdaten-Auswahl eine effiziente und leistungsfähige Anpassung an Verteilungsverschiebungen ohne teure Parameter-Updates ermöglicht.

Aodi Li, Liansheng Zhuang, Xiao Long + 2 more2026-03-06💻 cs

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Die vorgestellte Arbeit führt ein 3D-dynamikbewusstes Manipulationsframework ein, das durch die Integration von 3D-Weltmodellierung und selbstüberwachtem Lernen eine räumliche Voraussicht ermöglicht, welche die Leistung von Manipulationsrichtlinien in Simulation und Realität ohne Einbußen bei der Inferenzgeschwindigkeit erheblich verbessert.

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

Das Paper stellt MedFuncta vor, ein einheitliches Framework, das durch Meta-Learning und eine optimierte SIREN-Aktivierung effiziente, generalisierbare neurale Felder für große medizinische Datensätze ermöglicht und dabei Speicherbedarf sowie Rechenaufwand reduziert.

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond

Die Arbeit stellt „RapidPoseTriangulation" vor, einen neuen Algorithmus zur millisekundenschnellen und generalisierbaren Triangulation von Ganzkörper-Posen mehrerer Personen aus mehreren Ansichten, der von Gesichtsausdrücken bis zu Fingerbewegungen reicht und dessen Code öffentlich zugänglich ist.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

Die Arbeit stellt Noise2Ghost vor, eine selbstüberwachte, tiefenlernbasierte Methode zur Rekonstruktion von Ghost-Imaging-Daten, die ohne saubere Referenzdaten auskommt und durch hervorragende Rauschunterdrückung besonders für rauschbehaftete Aufnahmen in Low-Light-Szenarien wie der Röntgenfluoreszenzanalyse geeignet ist.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

Collaborative Learning of Local 3D Occupancy Prediction and Versatile Global Occupancy Mapping

Die Arbeit stellt LMPOcc vor, ein Plug-and-Play-Framework, das globale 3D-Besetzungskarten als Langzeitgedächtnis nutzt, um die lokale semantische Besetzungsvorhersage für autonomes Fahren zu verbessern und gleichzeitig durch kollaboratives Crowdsourcing globale Karten kontinuierlich zu aktualisieren.

Shanshuai Yuan, Julong Wei, Muer Tie + 3 more2026-03-06💻 cs

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

Die Arbeit stellt PhysLLM vor, ein kollaboratives Optimierungsframework, das Large Language Models durch cross-modale Ausrichtung und adaptive Signalstabilisierung mit rPPG-Komponenten verbindet, um berührungslose physiologische Messungen unter variierenden Licht- und Bewegungsbedingungen robuster und genauer zu gestalten.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

Die Arbeit stellt ReactDance vor, ein Diffusionsframework, das durch die hierarchische Finite-Scalar-Quantisierung (HFSQ) für hochpräzise räumliche Kontrolle und die blockweise lokale Kontextstrategie (BLC) für kohärente lange Sequenzen hochwertige reaktive Tanzgeneration ermöglicht.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

Die Arbeit stellt RESAR-BEV vor, ein erklärbarer, progressiver autoregressiver Ansatz zur Kamera-Radar-Fusion für die BEV-Segmentierung, der durch eine kaskadierte Transformer-Architektur und robuste Voxel-Features auf dem nuScenes-Datensatz einen neuen State-of-the-Art mit 54,0 % mIoU bei Echtzeitfähigkeit erreicht.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

← Zurück Weiter →