Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Diese Arbeit stellt ein Transformer-basiertes Framework für die audio-visuelle Emotionserkennung vor, das mithilfe von temporär ausgerichteten rotierenden Positionseingebettungen (TaRoPE) und einem Cross-Temporal Matching-Verlust die zeitliche Ausrichtung heterogener Modalitäten verbessert und so die Leistung gegenüber bestehenden Baselines steigert.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Die Arbeit stellt ein paralinguistisch erweitertes Feinabstimmungsverfahren (PE-FT) vor, das durch gezielte Schichtanalyse und eine duale Klassifizierungskopf-Architektur Large Audio Language Models befähigt, paralinguistische Hinweise effektiv zu nutzen und dabei sogar die Leistung einer vollständigen Schicht-Feinabstimmung übertrifft.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

Das Paper stellt EasyAnimate vor, ein hocheffizientes Framework zur Videogenerierung auf Basis von Diffusion-Transformern, das durch Hybrid-Fenster-Attention, Reward-Backpropagation und optimierte Trainingsstrategien sowohl die Geschwindigkeit als auch die Qualität der Videoerstellung verbessert und dabei State-of-the-Art-Ergebnisse erzielt.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Die Arbeit stellt ExposureEngine vor, ein End-to-End-System zur präzisen, rotationsbewussten Erkennung von Sponsor-Logos in Sportübertragungen mittels orientierter Bounding Boxes, das auf einem neuen Datensatz trainiert wurde und durch eine sprachgesteuerte Agentenschicht automatisierte Sichtbarkeitsanalysen und Berichte ermöglicht.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

Die Arbeit stellt Export3D vor, eine Methode zur einmaligen, 3D-bewussten Porträtanimation, die durch einen neuartigen Tri-Plane-Generator und ein kontrastives Vor-Training Ausdrücke und Kameraperspektiven steuern kann, ohne dabei bei ausdruckskontrollierter Animation über verschiedene Identitäten hinweg unerwünschte Gesichtsmerkmale zu übertragen.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Die Arbeit schließt die Lücke in der Bewertung von Musikgenerierungsmodellen, indem sie ein umfassendes Ökosystem für Reward-Modelle unter kompositorischen multimodalen Anweisungen (CMI) einführt, das aus einem großen Datensatz, einem menschlich annotierten Korpus und einem einheitlichen Benchmark besteht, um die Ausrichtung auf Musikalität und Text-Musik-Konsistenz zu verbessern.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Das Paper stellt Crab⁺ vor, ein skalierbares und einheitliches Audio-Visuelles Large Language Model, das durch den neuen AV-UIE v2-Datensatz mit expliziten Schlussfolgerungsprozessen und die Interaktionsbewusste LoRA (I-LoRA) mit dynamischem Routing die Problematik negativen Transfers bei der gemeinsamen Ausbildung heterogener Aufgaben löst und so in fast 88 % der Fälle positive Transferwirkungen erzielt.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI