A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction
Das Paper stellt Wallaroo vor, ein einfaches autoregressives Modell, das durch Next-token-Vorhersage und eine vierstufige Trainingsstrategie multimodales Verständnis, Bildgenerierung und -bearbeitung sowie mehrsprachige Unterstützung vereint und dabei auf verschiedenen Benchmarks wettbewerbsfähige Ergebnisse erzielt.