Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Die Arbeit stellt GeoProto vor, ein interpretierbares Verfahren zur feinkörnigen Bilderkennung, das durch die Nutzung von Diffusionskarten und einer differenzierbaren Nyström-Interpolation die intrinsische Geometrie von Merkmalen nutzt, um die Genauigkeit und semantische Kohärenz von Prototypen im Vergleich zu euklidischen Ansätzen erheblich zu verbessern.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

Die Arbeit stellt DistillKac vor, einen schnellen Bildgenerator, der durch die Nutzung der gedämpften Wellengleichung und ihrer stochastischen Kac-Darstellung eine endliche Ausbreitungsgeschwindigkeit gewährleistet und durch Endpunkt-Distillation sowie eine neue Form der classifier-free guidance in Geschwindigkeitsräumen hochwertige Bilder mit sehr wenigen Funktionsevaluierungen erzeugt.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Diese Arbeit stellt einen offenen, vielschichtigen und skalierbaren Ansatz zur Anpassung der visuellen Emotionsbewertung für multimodale große Sprachmodelle vor, der durch eine neue Aufgabe und eine automatisierte Pipeline bestehende Evaluierungslücken schließt und deutliche Verbesserungspotenziale im Vergleich zum menschlichen Urteilsvermögen aufzeigt.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Das Paper stellt CircuitSense vor, ein umfassendes Benchmark für multimodale Large Language Models, das deren Fähigkeit bewertet, technische Schaltpläne zu verstehen und daraus symbolische mathematische Gleichungen abzuleiten, wobei die Ergebnisse eine erhebliche Lücke zwischen visueller Wahrnehmung und mathematischem Schlussfolgern aufzeigen.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

Die Arbeit stellt den VA-Adapter vor, der einen Ultraschall-Grundlagenmodell durch die Online-Integration von visuellen und aktionsbasierten Sequenzen an die Echokardiographie anpasst, um die individuelle 3D-Struktur des Herzens zu erfassen und so die Sonde präzise zu steuern, wobei er mit deutlich weniger Parametern als bestehende Modelle überlegene Ergebnisse erzielt.

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs