cs.CV Arbeiten | Gist.Science

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Die Arbeit stellt MASQuant vor, ein neues Post-Training-Quantisierungs-Framework für multimodale große Sprachmodelle, das durch modalspezifische Glättungsfaktoren und eine SVD-basierte Kompensation die Herausforderungen der Glättungsfehlausrichtung und der rechnerischen Invarianz zwischen verschiedenen Modalitäten effektiv löst.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Diese Arbeit stellt die Diffusion Contrastive Reconstruction (DCR) vor, eine Methode, die kontrastive Signale aus rekonstruierten Bildern in den Diffusionsprozess integriert, um die diskriminative und detailperzeptive Fähigkeit von CLIP-Visual-Encodern zu verbessern und so eine ausgewogenere visuelle Repräsentation für nachgelagerte Aufgaben zu erreichen.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

Die Studie stellt Meta-D vor, eine Architektur, die kategorische Scanner-Metadaten wie MRI-Sequenz und Ebenenorientierung nutzt, um die Feature-Extraktion zu steuern, was sowohl die 2D-Tumorerkennung als auch die 3D-Segmentierung bei fehlenden Modalitäten durch stabilisierte Repräsentationen und effizientere Aufmerksamkeitsmechanismen signifikant verbessert.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Die Studie zeigt, dass ein leichtgewichtiges Modell, das auf einem hochwertigen, polarisationsbasierten Datensatz mit realen 3D-Objekten trainiert und durch DINOv3-Priors sowie sensorbewusste Daten-Augmentierung verbessert wurde, selbst mit deutlich weniger Daten und Parametern RGB-only-Vision-Foundation-Modelle bei der Schätzung von Oberflächennormalen übertrifft, indem es die zuvor bestehenden Domänenlücken schließt.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

Die Autoren stellen einen neuartigen Framework namens CAD vor, der durch intra- und interklassische Regulierungen die Verstrickung von Instanzen in instanzabhängigem Partial-Label-Learning effektiv reduziert und so die Klassentrennung sowie die Gesamtleistung verbessert.

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

Die Arbeit stellt SADCA vor, einen semantikgestützten, dynamischen kontrastiven Angriff, der die Übertragbarkeit von Adversarial-Beispielen für Vision-Language-Modelle durch progressive Störung der cross-modalen Ausrichtung und semantische Augmentierung signifikant verbessert.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Die Arbeit stellt MPCAttack vor, ein neuartiges Framework für Multi-Paradigma-Kollaborative Angriffe, das durch die gemeinsame Optimierung von visuellen und textuellen Merkmalsrepräsentationen die Transferierbarkeit adversarieller Beispiele gegen Multi-Modal Large Language Models signifikant verbessert und dabei bestehende State-of-the-Art-Methoden übertrifft.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

GloSplat ist ein Framework, das durch die gemeinsame Optimierung von Pose und Erscheinung unter Beibehaltung expliziter SfM-Feature-Tracks während des Trainings von 3D-Gaussian-Splatting eine schnellere und genauere 3D-Rekonstruktion ermöglicht, die sowohl in COLMAP-freien als auch in COLMAP-basierten Szenarien state-of-the-art Ergebnisse erzielt.

Tianyu Xiong, Rui Li, Linjie Li + 1 more2026-03-06💻 cs

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

Die Arbeit stellt einen trainingsfreien Ansatz zur mehrstufigen Theoremvorhersage vor, der durch die Nutzung von Theorem-Vorranggraphen als nicht-parametrische strukturelle Priors das Problem des „Structural Drift" bei In-Context-Learning adressiert und auf dem FormalGeo7k-Benchmark eine Genauigkeit von 89,29 % erreicht, die mit überwachtem State-of-the-Art vergleichbar ist.

Junbo Zhao, Ting Zhang, Can Li + 3 more2026-03-06🤖 cs.AI

Scalable Injury-Risk Screening in Baseball Pitching From Broadcast Video

Diese Studie stellt eine skalierbare monokulare Videopipeline vor, die aus Baseball-Übertragungsaufnahmen klinisch relevante biomechanische Metriken rekonstruiert und damit eine kosteneffiziente Alternative zu teuren Motion-Capture-Systemen für das Screening von Verletzungsrisiken bietet.

Jerrin Bright, Justin Mende, John Zelek2026-03-06💻 cs

SURE: Semi-dense Uncertainty-REfined Feature Matching

Das Paper stellt SURE vor, ein semi-dichtes Feature-Matching-Framework, das durch die gemeinsame Modellierung von aleatorischer und epistemischer Unsicherheit sowie eine neuartige evidenzbasierte Kopfarchitektur zuverlässige Bildkorrespondenzen auch in schwierigen Szenarien mit großen Blickwinkeländerungen oder texturlosen Regionen ermöglicht.

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Die Arbeit stellt ein neues Framework namens Prompt-Driven Noise Generation (PNG) vor, das mithilfe von Prompt-Features realistische sRGB-Rauschbilder ohne Abhängigkeit von Kamerametadaten synthetisiert und so die Generalisierbarkeit von Rauschgenerierung und nachfolgendem Entrauschen in realen Szenarien erheblich verbessert.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Diese Studie demonstriert, dass allein durch die Analyse von 3D-Kinematikdaten aus Fernsehbildern eine Vorhersagegenauigkeit von 80,4 % für acht verschiedene Baseball-Würfe erreicht werden kann, wobei die Oberkörpermechanik den größten Beitrag leistet und grip-basierte Varianten wie Four-Seam und Two-Seam Fastballs kinematisch nicht unterscheidbar sind.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Diese Arbeit stellt ein neuartiges zweistufiges Framework für die automatische Generierung von CT-Berichten vor, das durch strukturorientierte Bild-Text-Kontrastierung und dynamische Negativ-Queues präzise semantische Korrespondenzen zwischen anatomischen Strukturen und Befundtexten erlernt, um so den aktuellen Stand der Technik in klinischer Effizienz zu übertreffen.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Die Arbeit stellt DeformTrace vor, ein hybrides State-Space-Modell mit deformierbaren Dynamiken und Relais-Token-Mechanismen, das durch präzise zeitliche Fokussierung und verbesserte Langstreckenmodellierung den State-of-the-Art in der Lokalisierung von Medienmanipulationen erreicht.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Der vorgestellte FedMEPD-Rahmenwerk adressiert die Herausforderungen der intermodalen Heterogenität und der Personalisierung im föderierten Lernen für die multimodale Hirntumorsegmentierung durch den Einsatz von modality-spezifischen Encodern, teilweise personalisierten Fusion-Decodern und einem Mechanismus zur Kompensation fehlender Modalitäten mittels Cross-Attention.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Das Paper stellt FedAFD vor, ein einheitliches Framework für multimodales Federated Learning, das durch eine bi-level adversarielle Ausrichtungsstrategie, einen granularitätsbewussten Fusionsmodul und eine similarity-gesteuerte Ensemble-Destillation die Herausforderungen heterogener Datenmodalitäten, Aufgabenunterschiede und Modellheterogenität adressiert, um sowohl auf Client- als auch auf Serverseite eine überlegene Leistung und Privatsphäre zu gewährleisten.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Die Arbeit stellt einen einfachen Add-on-Ansatz namens Locality-Attending Vision Transformer (LocAtViT) vor, der durch die Modulation der Selbstattention mit einem lernbaren Gauß-Kernel und die Verfeinerung der Patch-Repräsentationen die Segmentierungsleistung von Vision-Transformern erheblich verbessert, ohne dabei deren Klassifikationsfähigkeiten zu beeinträchtigen oder das Trainingsregime zu ändern.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

Der Paper stellt FC-VFI vor, ein neues Verfahren zur Video-Framinterpolation, das durch latente zeitliche Modellierung und semantische Strukturierung hochauflösende, treue und konsistente Slow-Motion-Videos mit bis zu 240 Bildern pro Sekunde erzeugt und dabei die Schwächen bestehender Diffusionsmodelle bei der Detailwiedergabe überwindet.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Die Arbeit stellt AdaIAT vor, eine adaptive Methode, die durch gezielte Verstärkung der Aufmerksamkeit auf generierten Text Halluzinationen in Large Vision-Language-Modellen signifikant reduziert, ohne dabei die sprachliche Kohärenz oder Vorhersagefähigkeit zu beeinträchtigen.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

← Zurück Weiter →