A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction
Il paper introduce Wallaroo, un modello autoregressivo basato sulla previsione del prossimo token che unifica comprensione, generazione e modifica multimodale con supporto multilingue e multirisoluzione, ottenendo prestazioni competitive rispetto ad altri modelli unificati.