cs.CV Arbeiten | Gist.Science

Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

Diese Arbeit schlägt eine volumetrische Segmentierungsstrategie vor, die durch einen strukturierten Zerlegungs- und Wiederzusammensetzungsmechanismus 2D-basierte DINOv3-Grundlagenrepräsentationen auf die 3D-Segmentierung von Hippocampus-Strukturen in neonatalen MRT-Bildern erweitert und dabei einen konstanten Speicherverbrauch bei anatomischer Konsistenz gewährleistet.

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

Das Paper stellt SpikeTrack vor, ein neuartiges, energieeffizientes Framework für das visuelle Verfolgen von Objekten in RGB-Videos auf Basis von Spiking Neural Networks, das durch eine asymmetrische Architektur und ein speicherbasiertes Abrufmodul sowohl die Genauigkeit als auch die Energieeffizienz im Vergleich zu bestehenden Methoden deutlich verbessert.

Qiuyang Zhang, Jiujun Cheng, Qichao Mao + 5 more2026-03-02💻 cs

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

Die Arbeit stellt MSVBench vor, das erste umfassende Benchmark-System für die Bewertung und Verbesserung der Erzeugung mehrstufiger Videos, das durch einen hybriden Evaluierungsrahmen aus großen multimodalen Modellen und Expertenmodellen eine menschliche Bewertungsgenauigkeit von 94,4 % erreicht und als skalierbares Supervisionsignal dient.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

Die Arbeit stellt Venus vor, ein zweistufiges Framework, das auf dem neu eingeführten AesGuide-Datensatz aufbaut, um multimodale Large Language Models durch ästhetische Anleitungsfähigkeiten zu stärken und damit sowohl proaktive fotografische Beratung als auch den state-of-the-art ästhetischen Zuschnitt von Bildern zu ermöglichen.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

Die Studie stellt MINT vor, ein dreistufiges multimodales Framework, das durch den Transfer von Biomarker-Strukturen aus MRT-Daten in einen Sprachencoder biologisch fundierte Entscheidungsgränzen für das frühe Alzheimer-Screening schafft und so eine präzise, bildgebungsunabhängige Diagnose auf Bevölkerungsebene ermöglicht.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

Die Arbeit stellt MIGM-Shortcut vor, eine Methode, die durch das Erlernen eines leichtgewichtigen Modells zur Regression der Geschwindigkeitsfelder der Feature-Entwicklung unter Einbeziehung von Abtasttoken die Effizienz von Masked Image Generation Models erheblich steigert und dabei bei Text-zu-Bild-Generierung eine mehr als vierfache Beschleunigung bei gleichbleibender Qualität ermöglicht.

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

Ordinal Diffusion Models for Color Fundus Images

Die Autoren stellen ein ordinales latentes Diffusionsmodell vor, das die geordnete Struktur von Stadien der diabetischen Retinopathie explizit in die Bildgenerierung integriert, um realistischere Fundusbilder zu erzeugen und die klinische Konsistenz im Vergleich zu herkömmlichen kategorischen Modellen zu verbessern.

Gustav Schmidt, Philipp Berens, Sarah Müller2026-03-02💻 cs

Interpretable Debiasing of Vision-Language Models for Social Fairness

Die Arbeit stellt DeBiasLens vor, ein interpretierbares und modellunabhängiges Framework, das mithilfe von Sparse Autoencodern soziale Bias-Neuronen in Vision-Language-Modellen identifiziert und gezielt deaktiviert, um soziale Fairness zu gewährleisten, ohne semantisches Wissen zu beeinträchtigen.

Na Min An, Yoonna Jang, Yusuke Hirota + 3 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

Die Arbeit stellt SR3R vor, ein Feed-Forward-Framework, das die 3D-Super-Resolution durch die direkte Vorhersage hochauflösender 3D-Gaussian-Splatting-Repräsentationen aus wenigen low-resolution-Ansichten neu definiert und so eine robuste Generalisierung sowie eine überlegene Rekonstruktionsqualität im Vergleich zu bestehenden Methoden ermöglicht.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

Das Paper stellt SteerVAD vor, einen neuartigen, feinsten-tuning-freien Ansatz zur Videoanomalieerkennung, der durch die Identifizierung diskriminativer Aufmerksamkeitsköpfe und deren gezielte, anisotrope Skalierung mittels eines hierarchischen Meta-Controllers die latenten Repräsentationen gefrorener multimodaler LLMs korrigiert und so State-of-the-Art-Ergebnisse mit nur 1 % der Trainingsdaten erzielt.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

GuardAlign ist ein trainingsfreies Verteidigungsframework für multimodale Sprachmodelle, das durch den Einsatz von Optimal-Transport zur präzisen Erkennung unsicherer Bildbereiche und einer cross-modalen Aufmerksamkeitskalibrierung zur Stabilisierung von Sicherheitsignalen die Sicherheitsrate signifikant verbessert, ohne die Nützlichkeit der Modelle zu beeinträchtigen.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

Die Arbeit stellt AIR vor, ein trainingsfreies Framework für multimodale große Sprachmodelle, das durch prototypenbasierte Token-Reduktion und OT-gesteuerte Patch-Reinforcement Halluzinationen effektiv reduziert, indem es die Aufmerksamkeit des Modells gezielt auf saliente visuelle Informationen lenkt.

Xingyu Zhu, Kesen Zhao, Liang Yi + 4 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Die Arbeit stellt ein einheitliches Framework vor, das mittels eines generativen Diffusionsmodells und impliziter Schnittmuster in UV-Raum sowohl aus Einzelbildern als auch aus Videos hochdetaillierte, zeitlich konsistente 3D-Rekonstruktionen von bekleideten Menschen ermöglicht, die selbst bei lockerer Kleidung und realen Aufnahmen über den bestehenden Stand der Technik hinausgehen.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Die Arbeit stellt Quant Experts (QE) vor, eine tokenbewusste adaptive Fehlerrekonstruktionsmethode mit Mixture-of-Experts, die durch die Unterscheidung zwischen tokenunabhängigen und tokenabhängigen Kanälen die Nachtrainings-Quantisierung von Large Vision-Language-Modellen verbessert und dabei die Genauigkeit von Vollpräzisionsmodellen beibehält.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Diese Arbeit stellt ein neurosymbolisches Verifikationsframework vor, das mithilfe eines SMT-Lösers und einer klinischen Wissensdatenbank die logische Konsistenz von bildbasierten Sprachmodellen bei der Erstellung radiologischer Berichte automatisch prüft und so hallucinierte Diagnosen eliminiert, um die Zuverlässigkeit klinischer Schlussfolgerungen zu garantieren.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

Das Paper stellt AgenticOCR vor, ein dynamisches, abfragegesteuertes OCR-System, das durch die selektive und bedarfsgerechte Extraktion relevanter Dokumentenbereiche die Effizienz und Genauigkeit multimodaler Retrieval-Augmented-Generation (RAG)-Systeme bei der Verarbeitung komplexer visueller Dokumente wie Finanzberichten erheblich verbessert.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

Die Arbeit stellt eine kompakte 3D-Gaussian-Splatting-Methode vor, die durch eine rekonstruktionsbewusste, adaptive Pruning-Strategie und neuartige Difference-of-Gaussian-Primitiven die Anzahl der Gauss-Funktionen um bis zu 90 % reduziert, ohne dabei die visuelle Wiedergabequalität zu beeinträchtigen.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

Die Arbeit stellt TASOT vor, eine unüberwachte Methode zur chirurgischen Phasen- und Schritterkennung, die multimodalen optimalen Transport unter Einbeziehung von visuellen und textuellen Informationen nutzt und dabei auf umfangreiche Vorab-Trainings verzichtet, während sie gleichzeitig signifikante Verbesserungen gegenüber bestehenden Zero-Shot-Methoden auf mehreren Benchmark-Datensätzen erzielt.

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

Das Paper stellt HumanOrbit vor, ein auf Video-Diffusionsmodellen basierendes Verfahren, das aus einem einzelnen Bild konsistente 360°-Orbit-Videos generiert und daraus hochwertige, texturierte 3D-Mesh-Modelle von Personen rekonstruiert.

Keito Suzuki, Kunyao Chen, Lei Wang + 5 more2026-03-02💻 cs

RAViT: Resolution-Adaptive Vision Transformer

RAViT ist ein neuartiges, resolutionsadaptives Vision-Transformer-Framework mit einem Mehrfachzweig-Netzwerk und einem Early-Exit-Mechanismus, das die Rechenkosten im Vergleich zu klassischen Vision-Transformern um etwa 30 % senkt, ohne dabei die Genauigkeit zu beeinträchtigen.

Martial Guidez, Stefan Duffner, Christophe Garcia2026-03-02🤖 cs.LG

← Zurück Weiter →