InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
El artículo presenta InternVL-U, un modelo multimodal unificado ligero de 4 mil millones de parámetros que democratiza las capacidades de comprensión, razonamiento, generación y edición mediante un diseño modular y una síntesis de datos centrada en el razonamiento, logrando un rendimiento superior al de modelos baselines mucho más grandes con una eficiencia notable.
Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs