New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Diese Arbeit schlägt ein neuartiges, auf unbalanciertem Optimal-Transport basierendes Ausrichtungsmodell vor, das die strukturelle Asymmetrie zwischen akustischen und linguistischen Repräsentationen als Detektionsproblem behandelt, um durch präzises Matching und flexible Behandlung von Rauschen die Leistung von ASR-Systemen bei der Wissensübertragung zu verbessern.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

Die Arbeit stellt VidGuard-R1 vor, den ersten KI-generierten Video-Detektor, der durch den Einsatz von Group Relative Policy Optimization (GRPO) und spezialisierten Belohnungsmodellen nicht nur eine state-of-the-art Zero-Shot-Erkennungsgenauigkeit erreicht, sondern auch physikalisch fundierte, nachvollziehbare Erklärungen für seine forensischen Urteile liefert.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs