WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

Das Paper stellt WAVE vor, ein bahnbrechendes, auf Multimodal-LLMs basierendes Embedding-Modell, das erstmals einen einheitlichen Raum für Text, Audio und Video schafft und durch eine hierarchische Fusionsstrategie sowie ein gemeinsames Multi-Task-Training state-of-the-art Ergebnisse in Aufgaben wie cross-modalem Retrieval und prompt-bewusster multimodaler Fragebeantwortung erzielt.

Changli Tang, Qinfan Xiao, Ke Mei + 3 more2026-02-24💻 cs

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Die Arbeit stellt RewardMap vor, ein mehrstufiges Reinforcement-Learning-Framework mit einem difficulty-basierten Belohnungsdesign, das das Problem der spärlichen Belohnungen bei der feingranularen visuellen Schlussfolgerung in multimodalen Sprachmodellen löst und durch die Einführung des ReasonMap-Plus-Datensatzes sowie eine gestufte Trainingsstrategie signifikante Leistungsverbesserungen erzielt.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI

LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

Das Paper stellt LinVideo vor, ein datenfreies Nachtrainierungsframework, das durch eine automatisierte Schichtauswahl und ein neues Verteilungsanpassungsziel (ADM) quadratische Aufmerksamkeitsmechanismen in Video-Diffusionsmodellen effizient durch lineare Aufmerksamkeitsmechanismen ersetzt und dabei eine Geschwindigkeitssteigerung von 1,25- bis 2-fach bei Erhalt der Generierungsqualität ermöglicht.

Yushi Huang, Xingtong Ge, Ruihao Gong + 2 more2026-02-24💻 cs

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Die Autoren stellen das State-Specific Model (SSM) vor, ein neuartiges Framework, das durch kritische Zustandskompression, das Lernen von Aktionsmustern und cross-temporale Interaktionen sowohl die Handlungserkennung als auch die -vorhersage in ungeschnittenen Videos verbessert und dabei die oft vernachlässigte Rolle der Agentenabsicht berücksichtigt.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Diese Arbeit untersucht systematisch den Einfluss der Prompt-Komplexität auf die Qualität, Vielfalt und Konsistenz von Text-zu-Bild-Modellen, wobei sie zeigt, dass komplexere Prompts zwar die Verteilungslücke zu realen Daten verringern, aber die Vielfalt und Konsistenz beeinträchtigen, während die Methode der Prompt-Erweiterung durch einen vortrainierten Sprachmodell als Likelihood-Schätzer die beste Leistung erzielt.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

Countering Multi-modal Representation Collapse through Rank-targeted Fusion

Die Autoren stellen den theoretisch fundierten „Rank-enhancing Token Fuser" vor, ein neuartiges Fusionsframework, das durch die gezielte Nutzung des effektiven Rangs sowohl den Feature- als auch den Modality-Collapse in der multimodalen Repräsentation bekämpft und damit die State-of-the-Art-Ergebnisse bei der Vorhersage menschlicher Aktionen signifikant verbessert.

Seulgi Kim, Kiran Kokilepersaud, Mohit Prabhushankar + 1 more2026-02-24🤖 cs.LG