Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Der Artikel stellt Omni-Diffusion vor, das erste beliebige-zu-beliebige multimodale Sprachmodell, das vollständig auf einem maskierten diskreten Diffusionsansatz basiert und damit das Verständnis sowie die Generierung von Text, Sprache und Bildern in einer einheitlichen Architektur vereint.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Diese Studie zeigt, dass die vermeintlich schwache Klassifizierungsleistung von multimodalen Sprachmodellen (MLLMs) hauptsächlich auf fehlerhafte Evaluierungsprotokolle und verrauschte Ground-Truth-Daten zurückzuführen ist, die durch korrekte Annotationen und optimierte Protokolle behoben werden können, wodurch sich die Lücke zu überwachten Modellen erheblich verringert und MLLMs zudem als wertvolle Werkzeuge für die menschliche Datenerstellung erweisen.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

Die Arbeit stellt FEP-Nav vor, ein biologisch inspiriertes Framework, das durch die Minimierung der Variational Free Energy mittels eines Top-down-Decoders und adaptiver Normalisierung eine robuste Echtzeit-Wahrnehmungsanpassung für die visuelle Navigation unter unsicheren und verrauschten Bedingungen ermöglicht.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

Das Paper stellt EasyAnimate vor, ein hocheffizientes Framework zur Videogenerierung auf Basis von Diffusion-Transformern, das durch Hybrid-Fenster-Attention, Reward-Backpropagation und optimierte Trainingsstrategien sowohl die Geschwindigkeit als auch die Qualität der Videoerstellung verbessert und dabei State-of-the-Art-Ergebnisse erzielt.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs