cs.CV Arbeiten | Gist.Science

Evaluating and Correcting Human Annotation Bias in Dynamic Micro-Expression Recognition

Diese Arbeit stellt eine neue Architektur namens GAMDSS vor, die durch dynamische Neuauswahl von Schlüsseldiagrammen menschliche Annotationenfehler in der mikroskopischen Gesichtsausdruckserkennung, insbesondere bei multikulturellen Datensätzen, korrigiert und die Leistung bestehender Modelle ohne zusätzliche Parameter verbessert.

Feng Liu, Bingyu Nan, Xuezhong Qian + 1 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Die Arbeit stellt DSA-SRGS vor, das erste Framework für superauflösende Gaußsche Splatting-Rekonstruktion dynamischer DSA-Bilder aus wenigen Ansichten, das durch ein Multi-Fidelity-Textur-Lernmodul und eine radiative Subpixel-Densifizierung feine Gefäßstrukturen ohne Artefakte wiederherstellt.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

Die Arbeit stellt MADCrowner vor, ein neuartiges, randbewusstes Framework zur automatisierten dentalen Kronenkonstruktion, das durch die Kombination einer template-basierten Deformation und einer präzisen Randsegmentierung die geometrische Genauigkeit und klinische Machbarkeit im Vergleich zu bestehenden Methoden signifikant verbessert.

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Dieser technische Bericht stellt ein neues, datenschutzfreundliches Wahrnehmungsframework namens „Privacy-Aware Camera 2.0" vor, das mithilfe des AI-Flow-Paradigmas und einer Edge-Cloud-Architektur Rohbilder am Rand in irreversible abstrakte Merkmalsvektoren umwandelt, um gleichzeitig den Datenschutz zu gewährleisten und eine semantische Verhaltensanalyse sowie eine visuelle Rekonstruktion über eine „dynamische Kontur"-Sprache in der Cloud zu ermöglichen.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

Die vorgestellte Arbeit stellt RMK RetinaNet vor, einen robusten Detektor für orientierte Objekte in Fernerkundungsbildern, der durch einen Multi-Scale-Kernel-Block, eine Multi-Directional-Contextual-Anchor-Attention-Mechanismus, einen Bottom-up-Pfad und ein Euler-Winkel-Kodierungsmodul die Herausforderungen der adaptiven Rezeptivfeldnutzung, der Merkmalsfusion und der Winkelregression adressiert.

Huiran Sun2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

Die Arbeit stellt „LAW & ORDER" vor, ein adaptives Gewichtungssystem für medizinische Diffusionsmodelle und Segmentierung, das durch einen lernbaren Gewichtsmodulator und eine effiziente Bereichserkennung die Bildqualität sowie die Segmentierungsgenauigkeit bei deutlich reduzierter Rechenkomplexität verbessert.

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs

Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging. Review Paper

Diese Übersichtsarbeit vergleicht traditionelle Methoden mit Deep-Learning-Ansätzen für die Bildgebung von Hirngliomen und stellt fest, dass Convolutional Neural Networks (CNNs) bei der Segmentierung und Klassifizierung traditionelle Techniken übertreffen.

Kiranmayee Janardhan, Vinay Martin DSa Prabhu, T. Christy Bobby2026-03-06💻 cs

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Die Arbeit stellt MASQuant vor, ein neues Post-Training-Quantisierungs-Framework für multimodale große Sprachmodelle, das durch modalspezifische Glättungsfaktoren und eine SVD-basierte Kompensation die Herausforderungen der Glättungsfehlausrichtung und der rechnerischen Invarianz zwischen verschiedenen Modalitäten effektiv löst.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Diese Arbeit stellt die Diffusion Contrastive Reconstruction (DCR) vor, eine Methode, die kontrastive Signale aus rekonstruierten Bildern in den Diffusionsprozess integriert, um die diskriminative und detailperzeptive Fähigkeit von CLIP-Visual-Encodern zu verbessern und so eine ausgewogenere visuelle Repräsentation für nachgelagerte Aufgaben zu erreichen.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

Die Studie stellt Meta-D vor, eine Architektur, die kategorische Scanner-Metadaten wie MRI-Sequenz und Ebenenorientierung nutzt, um die Feature-Extraktion zu steuern, was sowohl die 2D-Tumorerkennung als auch die 3D-Segmentierung bei fehlenden Modalitäten durch stabilisierte Repräsentationen und effizientere Aufmerksamkeitsmechanismen signifikant verbessert.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Die Studie zeigt, dass ein leichtgewichtiges Modell, das auf einem hochwertigen, polarisationsbasierten Datensatz mit realen 3D-Objekten trainiert und durch DINOv3-Priors sowie sensorbewusste Daten-Augmentierung verbessert wurde, selbst mit deutlich weniger Daten und Parametern RGB-only-Vision-Foundation-Modelle bei der Schätzung von Oberflächennormalen übertrifft, indem es die zuvor bestehenden Domänenlücken schließt.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

Die Autoren stellen einen neuartigen Framework namens CAD vor, der durch intra- und interklassische Regulierungen die Verstrickung von Instanzen in instanzabhängigem Partial-Label-Learning effektiv reduziert und so die Klassentrennung sowie die Gesamtleistung verbessert.

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

Die Arbeit stellt SADCA vor, einen semantikgestützten, dynamischen kontrastiven Angriff, der die Übertragbarkeit von Adversarial-Beispielen für Vision-Language-Modelle durch progressive Störung der cross-modalen Ausrichtung und semantische Augmentierung signifikant verbessert.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Die Arbeit stellt MPCAttack vor, ein neuartiges Framework für Multi-Paradigma-Kollaborative Angriffe, das durch die gemeinsame Optimierung von visuellen und textuellen Merkmalsrepräsentationen die Transferierbarkeit adversarieller Beispiele gegen Multi-Modal Large Language Models signifikant verbessert und dabei bestehende State-of-the-Art-Methoden übertrifft.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

GloSplat ist ein Framework, das durch die gemeinsame Optimierung von Pose und Erscheinung unter Beibehaltung expliziter SfM-Feature-Tracks während des Trainings von 3D-Gaussian-Splatting eine schnellere und genauere 3D-Rekonstruktion ermöglicht, die sowohl in COLMAP-freien als auch in COLMAP-basierten Szenarien state-of-the-art Ergebnisse erzielt.

Tianyu Xiong, Rui Li, Linjie Li + 1 more2026-03-06💻 cs

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

Die Arbeit stellt einen trainingsfreien Ansatz zur mehrstufigen Theoremvorhersage vor, der durch die Nutzung von Theorem-Vorranggraphen als nicht-parametrische strukturelle Priors das Problem des „Structural Drift" bei In-Context-Learning adressiert und auf dem FormalGeo7k-Benchmark eine Genauigkeit von 89,29 % erreicht, die mit überwachtem State-of-the-Art vergleichbar ist.

Junbo Zhao, Ting Zhang, Can Li + 3 more2026-03-06🤖 cs.AI

Scalable Injury-Risk Screening in Baseball Pitching From Broadcast Video

Diese Studie stellt eine skalierbare monokulare Videopipeline vor, die aus Baseball-Übertragungsaufnahmen klinisch relevante biomechanische Metriken rekonstruiert und damit eine kosteneffiziente Alternative zu teuren Motion-Capture-Systemen für das Screening von Verletzungsrisiken bietet.

Jerrin Bright, Justin Mende, John Zelek2026-03-06💻 cs

SURE: Semi-dense Uncertainty-REfined Feature Matching

Das Paper stellt SURE vor, ein semi-dichtes Feature-Matching-Framework, das durch die gemeinsame Modellierung von aleatorischer und epistemischer Unsicherheit sowie eine neuartige evidenzbasierte Kopfarchitektur zuverlässige Bildkorrespondenzen auch in schwierigen Szenarien mit großen Blickwinkeländerungen oder texturlosen Regionen ermöglicht.

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Die Arbeit stellt ein neues Framework namens Prompt-Driven Noise Generation (PNG) vor, das mithilfe von Prompt-Features realistische sRGB-Rauschbilder ohne Abhängigkeit von Kamerametadaten synthetisiert und so die Generalisierbarkeit von Rauschgenerierung und nachfolgendem Entrauschen in realen Szenarien erheblich verbessert.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Diese Studie demonstriert, dass allein durch die Analyse von 3D-Kinematikdaten aus Fernsehbildern eine Vorhersagegenauigkeit von 80,4 % für acht verschiedene Baseball-Würfe erreicht werden kann, wobei die Oberkörpermechanik den größten Beitrag leistet und grip-basierte Varianten wie Four-Seam und Two-Seam Fastballs kinematisch nicht unterscheidbar sind.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

← Zurück Weiter →