InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
O artigo apresenta o InternVL-U, um modelo unificado multimodal leve de 4 bilhões de parâmetros que democratiza capacidades de compreensão, raciocínio, geração e edição, superando modelos maiores como o BAGEL (14B) em tarefas de geração e edição graças a uma arquitetura modular e um pipeline de dados focado em raciocínio.