cs.CV Arbeiten | Gist.Science

The Geometry of Transfer: Unlocking Medical Vision Manifolds for Training-Free Model Ranking

Die Autoren stellen einen neuartigen, trainingsfreien Topologie-getriebenen Rahmen zur Bewertung der Übertragbarkeit medizinischer Basismodelle vor, der durch die Analyse globaler und lokaler topologischer Konsistenz die Auswahl optimaler Modelle für Segmentierungsaufgaben im Vergleich zu bestehenden Methoden um 31 % verbessert.

Jiaqi Tang, Shaoyang Zhang, Xiaoqi Wang + 3 more2026-03-02🤖 cs.AI

Leveraging Geometric Prior Uncertainty and Complementary Constraints for High-Fidelity Neural Indoor Surface Reconstruction

Die Arbeit stellt GPU-SDF vor, ein neuronales Framework zur hochfidenzialen Rekonstruktion von Innenräumen, das durch eine explizite Schätzung geometrischer Prior-Unsicherheiten und komplementäre Randbedingungen feine Details wie dünne Strukturen präziser erfasst als bestehende Ansätze.

Qiyu Feng, Jiwei Shan, Shing Shin Cheng + 1 more2026-03-02💻 cs

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

Diese Arbeit stellt eine neuartige, ereigniszentrierte Strategie für die Vision-Language-Navigation vor, die mithilfe des multimodalen Wissensgraphen YE-KG und des Modells STE-VLN die langfristige Reasoning-Fähigkeit von Agenten in unbekannten Umgebungen durch die Integration von episodischem Gedächtnis aus realen Indoor-Videos verbessert.

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning

Die Arbeit stellt PointCoT vor, ein neuartiges Framework mit einem großen Instruktionstuning-Datensatz, das Multimodale Large Language Models durch explizites Chain-of-Thought-Reasoning befähigt, präzise 3D-geometrische Schlussfolgerungen in Punktwolken zu treffen und so Halluzinationen zu vermeiden.

Dongxu Zhang, Yiding Sun, Pengcheng Li + 12 more2026-03-02🤖 cs.AI

Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

Diese Arbeit stellt ein duales Verzweigungsnetzwerk mit paralleler Aufmerksamkeit und adaptiver Merkmalsfusion vor, das die Genauigkeit der Mikroexpressionserkennung auf dem CASME II-Datensatz durch die Kombination von ResNet- und Inception-Architekturen signifikant verbessert.

Mingjie Zhang, Bo Li, Wanting Liu + 5 more2026-03-02🤖 cs.AI

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Die Arbeit stellt CC-VQA vor, eine trainingsfreie Methode für wissensbasiertes visuelles Fragenbeantworten, die durch visozentrische Konfliktanalyse und korrelationsgesteuerte Kodierung sowie Dekodierung Konflikte zwischen parametrischem Modellwissen und dynamisch abgerufenen Informationen effektiv löst und damit den aktuellen Stand der Technik auf mehreren Benchmarks verbessert.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

GDA-YOLO11: Amodal Instance Segmentation for Occlusion-Robust Robotic Fruit Harvesting

Die Studie stellt GDA-YOLO11 vor, ein neuartiges amodales Segmentierungsmodell, das durch architektonische Verbesserungen und einen angepassten Verlust die Robustheit von Robotern bei der Ernte verdeckter Zitrusfrüchte signifikant steigert und erstmals eine praktische Wahrnehmung-zu-Aktion-Integration in der Landwirtschaft demonstriert.

Caner Beldek, Emre Sariyildiz, Son Lam Phung + 1 more2026-03-02💻 cs

SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

Das Paper stellt SwitchCraft vor, ein trainingsfreies Framework, das mittels Event-Aligned Query Steering und eines Auto-Balance Strength Solvers die Generierung kohärenter Videos mit mehreren Ereignissen aus Textprompts ermöglicht, indem es die Zuordnung von Ereignissen zu spezifischen Bildrahmen optimiert.

Qianxun Xu, Chenxi Song, Yujun Cai + 1 more2026-03-02💻 cs

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Dieses Paper stellt NV-CoT vor, ein Framework, das multimodale Sprachmodelle durch die Generierung kontinuierlicher numerischer Koordinaten statt diskreter Text-Token befähigt, präziser und effizienter visuelle Schlussfolgerungen zu ziehen.

Kesen Zhao, Beier Zhu, Junbao Zhou + 3 more2026-03-02💻 cs

Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

Diese Arbeit stellt einen klinisch ausgerichteten Ansatz zur Ischämie-Segmentierung und ASPECTS-Bewertung auf NCCT-Bildern vor, der durch die Kombination eines eingefrorenen DINOv3-Backbones mit einem territorialen, gating-basierten Verlust (TAGL) die anatomische Konsistenz zwischen basalen Ganglien und supraganglionären Ebenen verbessert und damit die Leistung bestehender Modelle übertrifft.

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

Diese Arbeit schlägt eine volumetrische Segmentierungsstrategie vor, die durch einen strukturierten Zerlegungs- und Wiederzusammensetzungsmechanismus 2D-basierte DINOv3-Grundlagenrepräsentationen auf die 3D-Segmentierung von Hippocampus-Strukturen in neonatalen MRT-Bildern erweitert und dabei einen konstanten Speicherverbrauch bei anatomischer Konsistenz gewährleistet.

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

Das Paper stellt SpikeTrack vor, ein neuartiges, energieeffizientes Framework für das visuelle Verfolgen von Objekten in RGB-Videos auf Basis von Spiking Neural Networks, das durch eine asymmetrische Architektur und ein speicherbasiertes Abrufmodul sowohl die Genauigkeit als auch die Energieeffizienz im Vergleich zu bestehenden Methoden deutlich verbessert.

Qiuyang Zhang, Jiujun Cheng, Qichao Mao + 5 more2026-03-02💻 cs

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

Die Arbeit stellt MSVBench vor, das erste umfassende Benchmark-System für die Bewertung und Verbesserung der Erzeugung mehrstufiger Videos, das durch einen hybriden Evaluierungsrahmen aus großen multimodalen Modellen und Expertenmodellen eine menschliche Bewertungsgenauigkeit von 94,4 % erreicht und als skalierbares Supervisionsignal dient.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

Die Arbeit stellt Venus vor, ein zweistufiges Framework, das auf dem neu eingeführten AesGuide-Datensatz aufbaut, um multimodale Large Language Models durch ästhetische Anleitungsfähigkeiten zu stärken und damit sowohl proaktive fotografische Beratung als auch den state-of-the-art ästhetischen Zuschnitt von Bildern zu ermöglichen.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

Die Studie stellt MINT vor, ein dreistufiges multimodales Framework, das durch den Transfer von Biomarker-Strukturen aus MRT-Daten in einen Sprachencoder biologisch fundierte Entscheidungsgränzen für das frühe Alzheimer-Screening schafft und so eine präzise, bildgebungsunabhängige Diagnose auf Bevölkerungsebene ermöglicht.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

Die Arbeit stellt MIGM-Shortcut vor, eine Methode, die durch das Erlernen eines leichtgewichtigen Modells zur Regression der Geschwindigkeitsfelder der Feature-Entwicklung unter Einbeziehung von Abtasttoken die Effizienz von Masked Image Generation Models erheblich steigert und dabei bei Text-zu-Bild-Generierung eine mehr als vierfache Beschleunigung bei gleichbleibender Qualität ermöglicht.

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

Ordinal Diffusion Models for Color Fundus Images

Die Autoren stellen ein ordinales latentes Diffusionsmodell vor, das die geordnete Struktur von Stadien der diabetischen Retinopathie explizit in die Bildgenerierung integriert, um realistischere Fundusbilder zu erzeugen und die klinische Konsistenz im Vergleich zu herkömmlichen kategorischen Modellen zu verbessern.

Gustav Schmidt, Philipp Berens, Sarah Müller2026-03-02💻 cs

Interpretable Debiasing of Vision-Language Models for Social Fairness

Die Arbeit stellt DeBiasLens vor, ein interpretierbares und modellunabhängiges Framework, das mithilfe von Sparse Autoencodern soziale Bias-Neuronen in Vision-Language-Modellen identifiziert und gezielt deaktiviert, um soziale Fairness zu gewährleisten, ohne semantisches Wissen zu beeinträchtigen.

Na Min An, Yoonna Jang, Yusuke Hirota + 3 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

Die Arbeit stellt SR3R vor, ein Feed-Forward-Framework, das die 3D-Super-Resolution durch die direkte Vorhersage hochauflösender 3D-Gaussian-Splatting-Repräsentationen aus wenigen low-resolution-Ansichten neu definiert und so eine robuste Generalisierung sowie eine überlegene Rekonstruktionsqualität im Vergleich zu bestehenden Methoden ermöglicht.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

Das Paper stellt SteerVAD vor, einen neuartigen, feinsten-tuning-freien Ansatz zur Videoanomalieerkennung, der durch die Identifizierung diskriminativer Aufmerksamkeitsköpfe und deren gezielte, anisotrope Skalierung mittels eines hierarchischen Meta-Controllers die latenten Repräsentationen gefrorener multimodaler LLMs korrigiert und so State-of-the-Art-Ergebnisse mit nur 1 % der Trainingsdaten erzielt.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

← Zurück Weiter →