InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
本論文は、理解・推論・生成・編集を統合した軽量な 40 億パラメータのマルチモーダルモデル「InternVL-U」を提案し、大規模モデルを凌駕する性能と効率性のバランスを達成したことを報告しています。
Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs