Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision
Das Paper stellt Uni-CoT vor, ein einheitliches Chain-of-Thought-Framework, das durch eine zweistufige Denkstrategie und ein strukturiertes Trainingskonzept kohärente multimodale Schlussfolgerungen über Text und Bild hinweg ermöglicht und dabei ressourceneffizient auf nur acht A100-GPUs trainiert werden kann.