InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
Die Arbeit stellt InternVL-U vor, ein leichtgewichtiges 4-Milliarden-Parameter-Modell, das durch eine modulare Architektur und eine datengetriebene Synthesepipeline Verständnis, Schlussfolgerung, Generierung und Bearbeitung in einem einheitlichen Rahmen vereint und dabei trotz seiner geringen Größe leistungsstärkere Basismodelle mit über 14 Milliarden Parametern in verschiedenen Aufgaben übertrifft.
Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie ZhangWed, 11 Ma💻 cs