Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders
O artigo apresenta o Penguin-VL, um modelo de linguagem visual compacto que substitui os codificadores de visão pré-treinados por contraste tradicionais por um codificador inicializado a partir de um LLM puramente textual, alcançando desempenho superior em tarefas complexas como compreensão de documentos e raciocínio espacial sem a necessidade de aumentar o tamanho do modelo.