MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data
El artículo presenta MM-Zero, el primer marco basado en aprendizaje por refuerzo que permite la autoevolución de modelos de visión y lenguaje desde cero sin datos, mediante un sistema de tres roles especializados (propuestor, codificador y solucionador) que generan conceptos visuales abstractos, crean imágenes ejecutables y realizan razonamiento multimodal.