DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning
O DeepEyes é um modelo de linguagem visual que utiliza aprendizado por reforço para aprender a "pensar com imagens" de forma nativa, integrando ativamente a percepção visual ao raciocínio sem necessidade de dados de treinamento pré-coletados, resultando em melhorias significativas em tarefas de percepção, raciocínio e redução de alucinações.