cs.CV Arbeiten | Gist.Science

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

Die Arbeit stellt SurgCalib vor, ein markerloses Framework zur Hand-Augen-Kalibrierung des da Vinci-Operationsroboters, das mittels Gaußschem Splatting und einer zweiphasigen Optimierung unter RCM-Bedingungen präzise Kalibrierungsergebnisse ohne zusätzliche fiduzielle Marker erzielt.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. Salcudean2026-03-11💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

Die Arbeit stellt SkipGS vor, eine effiziente Trainingsmethode für 3D-Gaussian-Splatting, die durch einen adaptiven Mechanismus zum selektiven Überspringen von Rückwärtsdurchläufen in der Nachverdichtungsphase die Trainingszeit um 23,1 % reduziert, ohne die Rekonstruktionsqualität zu beeinträchtigen.

Jingxing Li, Yongjae Leeand, Deliang Fan2026-03-11💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

Diese Arbeit stellt ein multimodales Framework vor, das Diffusionsmodelle mit ControlNet nutzt, um Kopiererkennungsmuster durch die Kombination von Originalvorlage, gedrucktem Muster und Drucker-Signatur zu authentifizieren und dabei hochauflösende Fälschungen zuverlässiger als herkömmliche Methoden zu erkennen.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-Junior2026-03-11💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Die Arbeit stellt Normalized Flow Matching (NFM) vor, eine Methode, die die quasi-deterministischen Kopplungen von vortrainierten autoregressiven Normalizing-Flow-Modellen destilliert, um Student-Flow-Modelle zu trainieren, die sowohl ihre Lehrer als auch herkömmliche Flow-Matching-Ansätze mit unabhängigen oder optimalen Transport-Kopplungen übertreffen.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei Zhai2026-03-11🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Diese Arbeit stellt einen exakten und architekturgetreuen Flachheitsmaßstab für CNNs vor, der durch eine geschlossene Formel für die Spur der Hesse-Matrix die Generalisierungsfähigkeit präziser schätzt als bisherige Methoden, die oft die spezifische Geometrie von Faltungsschichten vernachlässigen.

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti2026-03-11🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Die Arbeit stellt WS-Net vor, ein tiefes Entmischungsframework, das durch die Kombination von State-Space-Modellierung und einer Schwachsignal-Aufmerksamkeitsfusion die Genauigkeit bei der Rekonstruktion schwacher hyperspektraler Signale unter Rauschbedingungen signifikant verbessert.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

Die Arbeit stellt SpectralDiff vor, ein auf Diffusionsmodellen basierendes Framework zur Entfernung von Regenflecken aus Einzelbildern, das strukturierte spektrale Störungen zur gezielten Unterdrückung von Regenkomponenten nutzt und durch eine effiziente Full-Product-U-Net-Architektur eine kompakte und rechenleistungsfreundliche Lösung bietet.

Yucheng Xing, Xin Wang2026-03-11💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Diese Studie stellt einen verbesserten YOLOv8-basierten Dual-Modell-Rahmen vor, der durch die Kombination von Instanzsegmentierung und Objekterkennung nicht nur Feuer und Rauch erkennt, sondern auch eine quantitative Risikobewertung auf Basis der realen Entfernung zu gefährdeten Objekten ermöglicht.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Das Paper stellt GST-VLA vor, ein 3D-tiefenbewusstes Vision-Language-Action-Modell, das durch einen Gaussian Spatial Tokenizer für geometrisch strukturierte 3D-Gauß-Primitiven und eine 3D-tiefenbewusste Chain-of-Thought-Argumentation die Robotersteuerung auf Benchmarks wie LIBERO und SimplerEnv signifikant verbessert.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

Das Paper stellt OmniEdit vor, ein trainingsfreies Framework für Lippen-Synchronisation und Audio-Visuelle Bearbeitung, das durch die Ersetzung der Bearbeitungssequenz in FlowEdit und die Eliminierung stochastischer Elemente eine effiziente und stabile Generierung ermöglicht.

Lixiang Lin, Siyuan Jin, Jinshan Zhang2026-03-11💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Der vorgestellte Ansatz adressiert die Herausforderung der physikalisch plausiblen Videogenerierung, indem er physikalische Phänomene durch eine Kombination aus physikgetriebener Ereignisketten-Logik und transitionsbewusstem cross-modalem Prompting in eine Folge kausal verknüpfter, dynamisch evolvierender Ereignisse zerlegt, um so die Kontinuität und physikalische Konsistenz generierter Videos zu gewährleisten.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Diese Studie diagnostiziert die Leistungslücke zwischen textbasierten und bildbasierten Eingaben in multimodalen Sprachmodellen, identifiziert Lesefehler als Hauptursache und schlägt eine Selbst-Distillation vor, um das Textverständnis in Bilddokumenten drastisch zu verbessern.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

Das Papier stellt MedKCO vor, eine Methode zur medizinischen Vision-Language-Pretraining, die durch ein zweistufiges Curriculum-Learning und einen selbstgesteuerten asymmetrischen kontrastiven Verlust die kognitive Orchestrierung von Wissen optimiert, um suboptimale Merkmalsdarstellungen zu vermeiden und die Leistung bei downstream-Aufgaben signifikant zu steigern.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

Dieses Paper stellt einen trainingsfreien Rahmen zur Bewegungszerlegung vor, der komplexe Bewegungen in statische, starre und nicht-starre Kategorien aufteilt und durch eine sequenzielle Planung vor der Generierung sowie modale Entkopplung eine präzise, zusammengesetzte Videogenerierung mit verschiedenen Erscheinungsformen und Bewegungen ermöglicht.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Die vorgestellte Arbeit stellt ein Transformer-basiertes Framework für die zusammengesetzte Bild-Sprache-Wiedergewinnung bei Hautkrebs vor, das durch eine gemeinsame globale und lokale Ausrichtung sowie eine klinisch fundierte Gewichtung die Suche nach relevanten, biopsiebestätigten Fällen auf dem Derm7pt-Datensatz verbessert.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

Die Studie stellt VIVID-Med vor, ein effizientes Framework, das einen eingefrorenen Large Language Model als strukturierten Lehrer nutzt, um einen leichten, ausschließlich auf Bildern basierenden Vision Transformer für medizinische Anwendungen vorzuverarbeiten, der ohne den LLM-Overhead dennoch state-of-the-art Ergebnisse in verschiedenen klinischen Szenarien erzielt.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

Das Paper stellt PRLF vor, ein Framework für die multimodale Sentiment-Analyse, das durch einen adaptiven Zuverlässigkeitsschätzer und eine progressive Interaktion robust mit unvollständigen Modalitäten umgeht und dabei die Repräsentationen intakter Modalitäten schützt.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian Yang2026-03-11💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Das Paper stellt QUSR vor, ein diffusionsbasiertes Modell für die Bild-Super-Resolution, das durch die Kombination eines multimodalen Sprachmodells zur Qualitätsbewertung und einer unsicherheitsgesteuerten Rauschgenerierung realistische und detailreiche Bilder auch bei unbekannten und räumlich nicht einheitlichen Degradationen erzeugt.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Diese Studie stellt einen vollautomatischen, auf Transformer-Architekturen basierenden Ansatz zur Segmentierung von HR-pQCT-Bildern vor, der durch die radiomische Analyse von Weichgewebestrukturen eine präzisere Osteoporose-Diagnose ermöglicht als herkömmliche Knochen-basierte Methoden.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs

Rotation Equivariant Mamba for Vision Tasks

Die Arbeit stellt EQ-VMamba vor, die erste rotationsequivariante Mamba-Architektur für visuelle Aufgaben, die durch einen speziell entwickelten Cross-Scan-Mechanismus und theoretisch fundierte Äquivarianz nicht nur eine höhere Robustheit gegenüber Bildrotationen bietet, sondern auch bei überlegener oder vergleichbarer Leistung den Parameterbedarf um etwa 50 % reduziert.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben Xu2026-03-11💻 cs

← Zurück Weiter →