GIFT: Global Irreplaceability Frame Targeting for Efficient Video Understanding

Het paper introduceert GIFT, een trainingsvrij raamwerk dat de rekenkosten voor video-interpretatie verlaagt door via een nieuwe 'irreplaceability'-score en een adaptieve strategie de meest cruciale frames te selecteren, wat leidt tot aanzienlijk betere prestaties dan uniforme steekproeven.

Junpeng Ma, Sashuai Zhou, Guanghao Li, Xin Gao, Yue Cao, Hengyu Zeng, Yuxiang Yan, Zhibin Wang, Jun Song, Bo Zheng, Shanghang Zhang, Jian Pu2026-03-27💻 cs

Z-Erase: Enabling Concept Erasure in Single-Stream Diffusion Transformers

Z-Erase is de eerste methode die conceptverwijdering mogelijk maakt in single-stream diffusion transformers door een gestroomde ontkoppelingsframework en Lagrangiaans-gestuurde adaptieve modulatie te introduceren, waardoor het probleem van generatie-inzakking wordt opgelost en de prestaties op het state-of-the-art niveau worden gebracht.

Nanxiang Jiang, Zhaoxin Fan, Baisen Wang, Daiheng Gao, Junhang Cheng, Jifeng Guo, Yalan Qin, Yeying Jin, Hongwei Zheng, Faguo Wu, Wenjun Wu2026-03-27💻 cs

Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Dit artikel introduceert Token-Reweighting (ToR), een strategie die de onderlinge afhankelijkheid van waarnemings- en redeneertokens in multimodale taalmodellen expliciet modelleert om de prestaties van Reinforcement Learning with Verifiable Rewards (RLVR) te verbeteren en zo state-of-the-art resultaten te behalen op multimodale redeneerbenchmarks.

Jinda Lu, Junkang Wu, Jinghan Li, Kexin Huang, Shuo Yang, Guoyin Wang, Jiancan Wu, Xiang Wang, Xiangnan He2026-03-27💻 cs

THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics

Dit paper introduceert THEMIS, een nieuw multimodaal benchmark voor het grondig evalueren van grote taalmodellen op hun vermogen tot visuele fraudeherkenning in complexe, realistische academische scenario's, waarbij experimenten aantonen dat zelfs de beste modellen nog aanzienlijke beperkingen hebben.

Tzu-Yen Ma, Bo Zhang, Zichen Tang, Junpeng Ding, Haolin Tian, Yuanze Li, Zhuodi Hao, Zixin Ding, Zirui Wang, Xinyu Yu, Shiyao Peng, Yizhuo Zhao, Ruomeng Jiang, Yiling Huang, Peizhi Zhao, Jiayuan Chen (…)2026-03-27💻 cs

MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning

Dit paper introduceert MSRL, een multi-stadia versterkingsleerbenadering die schaalbare training van generatieve multimodale beloningsmodellen mogelijk maakt door eerst op tekstuele data te leren en deze vaardigheden vervolgens over te dragen naar multimodale taken, waardoor prestaties aanzienlijk verbeteren zonder extra multimodale voorkeurannotaties.

Chenglong Wang, Yifu Huo, Yang Gan, Qiaozhi He, Qi Meng, Bei Li, Yan Wang, Junfu Liu, Tianhua Zhou, Jingbo Zhu, Tong Xiao2026-03-27💻 cs