cs.MM Arbeiten | Gist.Science

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Diese Arbeit stellt ein Transformer-basiertes Framework für die audio-visuelle Emotionserkennung vor, das mithilfe von temporär ausgerichteten rotierenden Positionseingebettungen (TaRoPE) und einem Cross-Temporal Matching-Verlust die zeitliche Ausrichtung heterogener Modalitäten verbessert und so die Leistung gegenüber bestehenden Baselines steigert.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

On the Possible Detectability of Image-in-Image Steganography

Diese Arbeit zeigt, dass Bild-in-Bild-Steganografie aufgrund ihrer charakteristischen Mischprozesse, die sich mittels unabhängiger Komponentenanalyse und Momentenanalyse leicht identifizieren lassen, eine hohe Anfälligkeit für Entdeckung aufweist und mit vorgeschlagenen sowie klassischen Methoden eine sehr hohe Detektionsgenauigkeit erreicht wird.

Antoine Mallet (CRIStAL), Patrick Bas (CRIStAL)Fri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Die Arbeit stellt ein paralinguistisch erweitertes Feinabstimmungsverfahren (PE-FT) vor, das durch gezielte Schichtanalyse und eine duale Klassifizierungskopf-Architektur Large Audio Language Models befähigt, paralinguistische Hinweise effektiv zu nutzen und dabei sogar die Leistung einer vollständigen Schicht-Feinabstimmung übertrifft.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

Die Arbeit stellt SGMD vor, ein stilgeleitetes Motion-Diffusion-Modell, das Transformer-Architekturen mit einem Stil-Modulationsmodul und einem räumlich-zeitlichen Maskierungsmechanismus kombiniert, um kontrollierbare, stilistisch konsistente und realistische Tanzsequenzen zu generieren, die sowohl zur Musik als auch zu benutzerdefinierten Stilvorgaben passen.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

Die Arbeit stellt altiro3D vor, eine freie Bibliothek, die aus einem einzelnen RGB-Bild oder Video mittels Monokularer Tiefenschätzung, Inpainting und effizienter Projektionsalgorithmen realistische 3D-Erlebnisse und Lichtfelddaten für Freisicht-Displays erzeugt.

E. Canessa, L. Tenze2026-03-10💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

Die Arbeit stellt InstructHumans vor, ein neuartiges Framework für die instruktionsgesteuerte Textur-Editierung animierbarer 3D-Menschen, das durch eine modifizierte Score Distillation Sampling-Methode (SDS-E) und Regularisierungstechniken konsistente und hochauflösende Änderungen im Vergleich zu bestehenden Methoden ermöglicht.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

Das Paper stellt EasyAnimate vor, ein hocheffizientes Framework zur Videogenerierung auf Basis von Diffusion-Transformern, das durch Hybrid-Fenster-Attention, Reward-Backpropagation und optimierte Trainingsstrategien sowohl die Geschwindigkeit als auch die Qualität der Videoerstellung verbessert und dabei State-of-the-Art-Ergebnisse erzielt.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Die Arbeit stellt ExposureEngine vor, ein End-to-End-System zur präzisen, rotationsbewussten Erkennung von Sponsor-Logos in Sportübertragungen mittels orientierter Bounding Boxes, das auf einem neuen Datensatz trainiert wurde und durch eine sprachgesteuerte Agentenschicht automatisierte Sichtbarkeitsanalysen und Berichte ermöglicht.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

Diese Arbeit zeigt theoretisch und empirisch auf, dass diffusion-basierte Bildbearbeitung robuste unsichtbare Wasserzeichen durch den zugrundeliegenden Denoising-Prozess systematisch zerstört, was zu einer Informationsverlustrate führt, die eine zuverlässige Entschlüsselung unmöglich macht.

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Die Arbeit stellt DeformTrace vor, ein hybrides State-Space-Modell mit deformierbaren Dynamiken und Relais-Token-Mechanismen, das durch präzise zeitliche Fokussierung und verbesserte Langstreckenmodellierung den State-of-the-Art in der Lokalisierung von Medienmanipulationen erreicht.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

Das Paper stellt SarcasmMiner vor, ein auf Bestärkendem Lernen basierendes Nachtrainierungsframework, das durch eine Dual-Track-Destillationsstrategie und ein generatives Belohnungsmodell die robuste multimodale Sarkasmuserkennung verbessert und die F1-Leistung auf dem MUStARD++-Datensatz signifikant steigert.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

Die Arbeit stellt Export3D vor, eine Methode zur einmaligen, 3D-bewussten Porträtanimation, die durch einen neuartigen Tri-Plane-Generator und ein kontrastives Vor-Training Ausdrücke und Kameraperspektiven steuern kann, ohne dabei bei ausdruckskontrollierter Animation über verschiedene Identitäten hinweg unerwünschte Gesichtsmerkmale zu übertragen.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Die Arbeit schließt die Lücke in der Bewertung von Musikgenerierungsmodellen, indem sie ein umfassendes Ökosystem für Reward-Modelle unter kompositorischen multimodalen Anweisungen (CMI) einführt, das aus einem großen Datensatz, einem menschlich annotierten Korpus und einem einheitlichen Benchmark besteht, um die Ausrichtung auf Musikalität und Text-Musik-Konsistenz zu verbessern.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

Die Studie identifiziert und quantifiziert den „Order-to-Space Bias" (OTS), bei dem die Reihenfolge von Entitäten in Texten fälschlicherweise die räumliche Anordnung in Bildgenerierungsmodellen bestimmt, und zeigt, dass gezielte Feinabstimmung sowie Eingriffe in frühen Phasen dieses datengetriebene Problem wirksam reduzieren können.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Das Paper stellt Crab⁺ vor, ein skalierbares und einheitliches Audio-Visuelles Large Language Model, das durch den neuen AV-UIE v2-Datensatz mit expliziten Schlussfolgerungsprozessen und die Interaktionsbewusste LoRA (I-LoRA) mit dynamischem Routing die Problematik negativen Transfers bei der gemeinsamen Ausbildung heterogener Aufgaben löst und so in fast 88 % der Fälle positive Transferwirkungen erzielt.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

← Zurück

cs.MM