InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
O artigo apresenta o InternVL-U, um modelo unificado multimodal leve de 4 bilhões de parâmetros que democratiza capacidades de compreensão, raciocínio, geração e edição, superando modelos maiores como o BAGEL (14B) em tarefas de geração e edição graças a uma arquitetura modular e um pipeline de dados focado em raciocínio.
Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs