Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision
L'article présente Uni-CoT, un cadre de raisonnement en chaîne de pensée unifié qui combine la compréhension et la génération d'images pour effectuer un raisonnement multimodal cohérent et évolutif grâce à une nouvelle paradigme de raisonnement à deux niveaux, atteignant des performances de pointe sur des benchmarks d'édition et de génération d'images tout en étant entraîné efficacement sur seulement 8 GPU A100.