MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data
Die Arbeit stellt MM-Zero vor, ein RL-basiertes Framework, das erstmals die datenlose Selbstentwicklung von Vision-Language-Modellen durch ein dreiteiliges Rollenkonzept (Proposer, Coder, Solver) ermöglicht, das abstrakte visuelle Konzepte generiert, in ausführbaren Code übersetzt und multimodale Schlussfolgerungen trifft.