InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
Ce rapport présente InternVL-U, un modèle multimodal unifié léger de 4 milliards de paramètres qui démocratise les capacités de compréhension, de raisonnement, de génération et d'édition en surpassant des modèles plus volumineux grâce à une architecture modulaire et un pipeline de données axé sur le raisonnement.
Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs