DistillKac: Few-Step Image Generation via Damped Wave Equations

Die Arbeit stellt DistillKac vor, einen schnellen Bildgenerator, der durch die Nutzung der gedämpften Wellengleichung und ihrer stochastischen Kac-Darstellung eine endliche Ausbreitungsgeschwindigkeit gewährleistet und durch Endpunkt-Distillation sowie eine neue Form der classifier-free guidance in Geschwindigkeitsräumen hochwertige Bilder mit sehr wenigen Funktionsevaluierungen erzeugt.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Diese Arbeit stellt einen offenen, vielschichtigen und skalierbaren Ansatz zur Anpassung der visuellen Emotionsbewertung für multimodale große Sprachmodelle vor, der durch eine neue Aufgabe und eine automatisierte Pipeline bestehende Evaluierungslücken schließt und deutliche Verbesserungspotenziale im Vergleich zum menschlichen Urteilsvermögen aufzeigt.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Das Paper stellt CircuitSense vor, ein umfassendes Benchmark für multimodale Large Language Models, das deren Fähigkeit bewertet, technische Schaltpläne zu verstehen und daraus symbolische mathematische Gleichungen abzuleiten, wobei die Ergebnisse eine erhebliche Lücke zwischen visueller Wahrnehmung und mathematischem Schlussfolgern aufzeigen.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

Die Arbeit stellt den VA-Adapter vor, der einen Ultraschall-Grundlagenmodell durch die Online-Integration von visuellen und aktionsbasierten Sequenzen an die Echokardiographie anpasst, um die individuelle 3D-Struktur des Herzens zu erfassen und so die Sonde präzise zu steuern, wobei er mit deutlich weniger Parametern als bestehende Modelle überlegene Ergebnisse erzielt.

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

Die Arbeit stellt LinearSR vor, ein umfassendes Framework, das durch innovative Strategien wie die ESGF-Fine-Tuning-Methode, eine SNR-basierte Mixture-of-Experts-Architektur und den TAG-Leitmechanismus erstmals stabile und effiziente lineare Aufmerksamkeit für photorealistische Bild-Super-Resolution ermöglicht und dabei sowohl höchste Bildqualität als auch hohe Geschwindigkeit erreicht.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: 1\ell_1-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Das Paper stellt PHyCLIP vor, ein neues Vision-Language-Modell, das durch die Verwendung eines 1\ell_1-Produkts aus hyperbolischen Faktoren sowohl hierarchische Beziehungen innerhalb von Konzeptfamilien als auch kompositionelle Strukturen über verschiedene Familien hinweg effektiv vereint und dabei bestehende Ansätze in verschiedenen Aufgaben übertrifft.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG