Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Dit paper introduceert Intern-S1-Pro, het eerste multimodale fundamentele wetenschappelijke model met een omvang van één biljoen parameters dat, dankzij geavanceerde infrastructuur voor RL-training, zowel toonaangevende algemene intelligentie als ongeëvenaarde expertise in meer dan 100 gespecialiseerde wetenschappelijke taken combineert.

Yicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, Xia (…)2026-03-27🤖 cs.LG

GaussFusion: Improving 3D Reconstruction in the Wild with A Geometry-Informed Video Generator

GaussFusion is een nieuwe methode die 3D-Gaussian-splatting-reconstructies in het wild verbetert door een geometrie-informeerd video-generator te gebruiken om artefacten zoals zwevende objecten en trillingen te elimineren, waardoor state-of-the-art prestaties worden behaald voor zowel offline als real-time interactieve 3D-toepassingen.

Liyuan Zhu, Manjunath Narayana, Michal Stary, Will Hutchcroft, Gordon Wetzstein, Iro Armeni2026-03-27💻 cs

Learning Explicit Continuous Motion Representation for Dynamic Gaussian Splatting from Monocular Videos

Deze paper introduceert een methode voor hoogwaardige dynamische Gaussian Splatting vanuit monoculaire video's, waarbij SE(3) B-spline-bewegingsbasissen met een adaptief besturingsmechanisme worden gebruikt om continue vervormingen expliciet te modelleren en zo de prestaties bij het synthetiseren van nieuwe weergaven te verbeteren.

Xuankai Zhang, Junjin Xiao, Shangwei Huang, Wei-shi Zheng, Qing Zhang2026-03-27💻 cs

GIFT: Global Irreplaceability Frame Targeting for Efficient Video Understanding

Het paper introduceert GIFT, een trainingsvrij raamwerk dat de rekenkosten voor video-interpretatie verlaagt door via een nieuwe 'irreplaceability'-score en een adaptieve strategie de meest cruciale frames te selecteren, wat leidt tot aanzienlijk betere prestaties dan uniforme steekproeven.

Junpeng Ma, Sashuai Zhou, Guanghao Li, Xin Gao, Yue Cao, Hengyu Zeng, Yuxiang Yan, Zhibin Wang, Jun Song, Bo Zheng, Shanghang Zhang, Jian Pu2026-03-27💻 cs

Z-Erase: Enabling Concept Erasure in Single-Stream Diffusion Transformers

Z-Erase is de eerste methode die conceptverwijdering mogelijk maakt in single-stream diffusion transformers door een gestroomde ontkoppelingsframework en Lagrangiaans-gestuurde adaptieve modulatie te introduceren, waardoor het probleem van generatie-inzakking wordt opgelost en de prestaties op het state-of-the-art niveau worden gebracht.

Nanxiang Jiang, Zhaoxin Fan, Baisen Wang, Daiheng Gao, Junhang Cheng, Jifeng Guo, Yalan Qin, Yeying Jin, Hongwei Zheng, Faguo Wu, Wenjun Wu2026-03-27💻 cs

Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Dit artikel introduceert Token-Reweighting (ToR), een strategie die de onderlinge afhankelijkheid van waarnemings- en redeneertokens in multimodale taalmodellen expliciet modelleert om de prestaties van Reinforcement Learning with Verifiable Rewards (RLVR) te verbeteren en zo state-of-the-art resultaten te behalen op multimodale redeneerbenchmarks.

Jinda Lu, Junkang Wu, Jinghan Li, Kexin Huang, Shuo Yang, Guoyin Wang, Jiancan Wu, Xiang Wang, Xiangnan He2026-03-27💻 cs