InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
이 논문은 이해, 추론, 생성 및 편집 기능을 통합하면서도 4B 파라미터의 경량화 구조와 고밀도 의미 데이터 파이프라인을 통해 14B 규모의 기존 모델보다 뛰어난 성능과 효율성을 달성한 범용 멀티모달 모델 'InternVL-U'를 제안합니다.
Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie ZhangWed, 11 Ma💻 cs