Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders
Dit paper introduceert Penguin-VL, een efficiënt Vision Language Model dat een op tekst-only LLM gebaseerde visuele encoder gebruikt om de beperkingen van traditionele contrastieve pretraining te overwinnen en zo superieure prestaties te behalen in compacte, compute-beperkte scenario's.