Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision
O artigo apresenta o Uni-CoT, um framework unificado que supera as limitações atuais no raciocínio multimodal ao combinar compreensão e geração de imagens em um único modelo, utilizando uma abordagem de raciocínio em dois níveis (macro e micro) e treinamento estruturado para alcançar desempenho state-of-the-art com eficiência computacional.