Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een ingewikkeld schilderij moet maken, of een detective die een raadsel moet oplossen. Vroeger konden computers (kunstmatige intelligentie) alleen maar heel snel tekst typen, maar ze hadden moeite om te "denken" terwijl ze naar plaatjes keken of plaatjes maakten. Ze maakten vaak fouten, zoals een hond tekenen met zes poten of een landschap schilderen dat eruitzag als een rommelige spaghetti.

Deze paper introduceert Uni-CoT, een slimme nieuwe manier om computers te leren hoe ze moeten redeneren over zowel tekst als beelden. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Grote Gedachten" zijn te zwaar

Stel je voor dat je een heel lang verhaal moet schrijven, maar elke zin moet je ook direct in een foto omzetten. Als je dat in één keer probeert, wordt je hersenen (of in dit geval, de computer) overbelast. Het is alsof je probeert een heel boek te schrijven terwijl je tegelijkertijd elke zin in een film verandert. Het kost te veel energie en de computer raakt de draad kwijt.

2. De Oplossing: De "Hoofd- en Werkmeester" Strategie

Uni-CoT lost dit op door het werk op te splitsen in twee niveaus, net zoals een bouwproject:

De Hoofdmeester (Macro-Level):
Deze denkt eerst na over het grote plaatje. Hij zegt niet direct "teken een hond", maar zegt: "Oké, we moeten eerst een hond tekenen, dan een grasveld eronder, en tot slot de lucht." Hij maakt een stappenplan. Hij houdt niet vast aan de details, maar zorgt dat de richting klopt.
- Vergelijking: Dit is als de architect die de blauwdruk tekent, zonder zich druk te maken over welke kleur verf er op de muur komt.
De Werkmeester (Micro-Level):
Deze krijgt een klein stukje van het plan toegewezen. Hij doet het werk: "Oké, ik teken nu de hond." Maar hier komt het slimme deel: als de hond er raar uitziet, kijkt de Werkmeester even naar zijn werk en zegt: "Huh, dat lijkt niet op een hond. Ik ga het verbeteren." Hij doet dit in een kringloop van zelfreflectie. Hij probeert, kijkt, en verbetert tot het goed is, voordat hij naar de volgende stap gaat.
- Vergelijking: Dit is als de schilder die een stukje muur beschildert, even terugstapt om te kijken of de kleur goed is, en het direct repareert voordat hij naar de volgende muur gaat.

3. Waarom is dit zo slim?

Efficiëntie: Omdat de computer niet alles in één keer hoeft te onthouden (zoals een hele film in zijn hoofd), maar alleen naar het huidige stukje kijkt, gaat het veel sneller en goedkoper. Het is alsof je een lange reis maakt met tussenstops in plaats van in één keer door te vliegen zonder te landen.
Beter Redeneren: Computers zijn vaak goed in het kopiëren van plaatjes, maar slecht in het begrijpen van waarom iets er zo uitziet. Door het proces op te splitsen in stappen (eerst dit, dan dat), leren ze echt te begrijpen wat er gebeurt.
- Voorbeeld: Als je vraagt: "Teken een man in de stijl van Picasso die arm is," maakt een oude computer misschien gewoon een man. Uni-CoT denkt: "Oké, eerst een arm man tekenen, dan de stijl van Picasso toepassen (vierkante vormen), en dan zorgen dat de kleding versleten lijkt." Het resultaat is veel logischer.

4. Wat kunnen ze ermee?

Met deze nieuwe methode kan de computer nu:

Plaatjes maken die logisch zijn: Bijvoorbeeld een landschap maken op basis van een topografische kaart (zoals een 3D-landschap uit een platte lijnen-tekening).
Raadsels oplossen: Denk aan een legpuzzel waarbij de stukjes door elkaar liggen. De computer kan nu stap voor stap nadenken: "Als ik dit stukje hier leg, past dat dan bij dat stukje?"
Plaatjes verbeteren: Als je vraagt om een foto te veranderen (bijvoorbeeld "verander de auto in rood"), doet de computer dit niet zomaar, maar controleert hij of de schaduw en de reflectie ook kloppen.

Samenvatting

Uni-CoT is als het geven van een stappenplan en een spiegel aan een computer. In plaats van te proberen alles in één keer te doen (wat vaak mislukt), leert het de computer om eerst een plan te maken, het werk in kleine stukjes te doen, en na elke stap even te kijken: "Zit dit goed?" Als dat niet zo is, repareert hij het direct. Hierdoor worden de resultaten veel slimmer, logischer en betrouwbaarder.

Each language version is independently generated for its own context, not a direct translation.

Titel: UNI-COT: Naar een Geïntegreerde Chain-of-Thought Redenering over Tekst en Beeld

Auteurs: Luozheng Qin, Jia Gong, Yuqing Sun, et al. (Shanghai Academy of AI for Science, Fudan University, Nanyang Technological University)
Publicatie: ICLR 2026

1. Het Probleem

Chain-of-Thought (CoT) redenering heeft zich bewezen als een krachtige techniek om Large Language Models (LLMs) te helpen complexe taken op te lossen door problemen op te splitsen in stapsgewijze oplossingen. Het uitbreiden van dit concept naar multimodale settings (waarbij zowel tekst als beeld betrokken zijn) blijft echter een grote uitdaging.

De huidige beperkingen zijn:

Gebrek aan visuele overgangen: Bestaande methoden kunnen de overgang van visuele staten (bijv. het wijzigen van een afbeelding tijdens een redeneerproces) niet goed modelleren. Ze proberen visuele veranderingen vaak te benaderen via tekst, wat onvoldoende is voor taken zoals navigatie of puzzels oplossen.
Gefragmenteerde architecturen: Methoden die multimodale modellen koppelen aan beeldgeneratoren leiden vaak tot gebroken redeneerstromen en inconsistente overgangen.
Rekenkundige complexiteit: Traditionele autoregressieve CoT-modellen voor multimodale taken vereisen dat elke stap naar de volledige geschiedenis (tekst en duizenden visuele tokens) kijkt. Omdat een enkele multimodale stap duizenden tokens kan bevatten (bijv. ~9.000 visuele tokens + tekst), explodeert de rekenkosten kwadratisch ( $O(T^2)$ ), wat training en inferentie onhaalbaar maakt voor lange redeneerketens.

2. Methodologie: De Uni-CoT Architectuur

Uni-CoT introduceert een geunificeerd Chain-of-Thought-framework dat gebaseerd is op het model BAGEL (een decoder-only transformer met experts voor beeldbegrip en beeldgeneratie). De kern van de oplossing is een twee-niveau hiërarchisch redeneerparadigma dat de complexiteit drastisch verlaagt.

A. Hiërarchische Decompositie (Macro vs. Micro)

In plaats van één lange, monolithische redeneerketen, splitst Uni-CoT de taak op in:

Macro-niveau (Planning & Samenvatting):
- Het model schetst eerst een globale strategie en deelt de hoofdtaken op in beheersbare subdoelen (subtasks).
- Dit niveau abstracteert de uitvoeringsdetails en focust op de logische volgorde.
- Een Macro Attention Mask zorgt ervoor dat tijdens het plannen alleen de input, subdoelen en resultaten zichtbaar zijn, niet de gedetailleerde tussenstappen.
Micro-niveau (Uitvoering & Zelfreflectie):
- Voor elk subdoel voert het model een lokaal redeneertraject uit.
- Dit traject wordt geformuleerd als een Markov Decision Process (MDP). In plaats van naar de volledige geschiedenis te kijken, kijkt de micro-stap alleen naar de onmiddellijk vorige staat en de huidige instructie.
- Zelfreflectie (Self-Reflection): Na een eerste poging evalueert het model de output. Als er inconsistenties zijn, worden tekstuele en visuele bewerkingen uitgevoerd in een gesloten lus totdat de kwaliteit voldoende is.

B. Complexiteitsreductie

Door de hiërarchische structuur en het MDP-ontwerp op micro-niveau daalt de complexiteit van kwadratisch ( $O(T^2)$ ) naar bijna lineair ( $O(T)$ ).

Formule: De totale kosten worden gereduceerd van $O(T^2)$ naar $O(T^2/M)$ door decompositie, en verder naar $O(T)$ door de MDP-locatie.
Dit maakt het mogelijk om lange, complexe multimodale redeneerketens efficiënt te trainen en te draaien.

C. Trainingsparadigma

Het trainen van Uni-CoT omvat twee fasen met specifieke hulpdoelen:

Macro-Level Learning: Supervised learning op verweven tekst-beeld data voor globale planning en synthese van het eindresultaat.
Micro-Level Learning: Supervised learning voor subtask-uitvoering, verrijkt met vier hulpdoelen om het MDP-proces te stabiliseren:
- Generatie van tekstuele acties (bewerkingsinstructies).
- Generatie van beeldacties (visuele modificaties).
- Voorspelling van de volgende staat.
- Schatting van beloningen (evaluatie van de kwaliteit).

3. Belangrijkste Bijdragen

Uni-CoT Framework: Het eerste framework dat gestructureerde visuele overgangen naadloos integreert met tekstuele logica in één uniek model.
Efficiëntie door Hiërarchie: Een innovatieve oplossing voor de "token-explosie" in multimodale CoT door een macro-micro architectuur en MDP-formulering, wat de rekenkosten van $O(T^2)$ naar $O(T)$ drukt.
Zelfreflectie Mechanisme: Een robuust mechanisme voor iteratieve verbetering van zowel tekst als beeld binnen een subtask, wat de nauwkeurigheid verhoogt.
Gestructureerde Training: Een decoupled trainingsstrategie met hulpdoelen die stabiliteit en generalisatie verbetert bij het leren van complexe multimodale taken.

4. Resultaten

Uni-CoT is getest op benchmarks voor zowel beeldgeneratie als beeldbegrip.

Beeldgeneratie (GenEval & WISE):
- Uni-CoT presteert state-of-the-art (SOTA) op de WISE-benchmark (reasoning-driven image generation), met name dankzij het zelfreflectie-mechanisme dat initiële fouten corrigeert.
- Op GenEval toont het significante verbeteringen ten opzichte van het basismodel (BAGEL), voornamelijk door de macro-decompositiestrategie die synthetische prompts vertaalt naar natuurlijke tussenstappen.
Beeldbegrip (MME, MMMU, Jigsaw-R1):
- Uni-CoT behaalt betere resultaten dan open-source baselines op algemene benchmarks.
- Het toont een opvallende superioriteit op de Jigsaw-R1 benchmark (puzzels oplossen), wat aantoont dat het model sterke ruimtelijke en gestructureerde visuele redeneercapaciteiten heeft.
Efficiëntie:
- Experimenten tonen aan dat Uni-CoT 2,24x tot 11,26x minder token-interacties vereist dan een naïeve benadering bij toenemende redeneerstappen.
- De training convergeert twee keer zo snel (6.000 stappen vs. 12.000 stappen) en bereikt een lagere loss.

5. Betekenis en Toekomstperspectief

Uni-CoT markeert een belangrijke stap in de ontwikkeling van multimodale AI-systemen. Het bewijst dat complexe redenering over tekst en beeld mogelijk is binnen één model zonder dat de rekenkosten onbeheersbaar worden.

Schalbaarheid: De methode biedt een schaalbare basis voor toekomstige systemen die complexe taken zoals wetenschappelijke redenering, robotica-navigatie en gedetailleerde beeldbewerking vereisen.
Interpreteerbaarheid: Door de redeneerprocessen expliciet te maken (via macro-planning en micro-stappen), wordt het model transparanter dan "black-box" benaderingen.
Toekomst: De auteurs zien potentieel in het uitbreiden van het framework naar real-world toepassingen die nog fijnere visuele consistentie vereisen, en het integreren van meer real-world data (bijv. uit robotica en wetenschappelijke video's) om de generalisatie verder te verbeteren.

Kortom, Uni-CoT lost het fundamentele probleem op van de schaalbaarheid van multimodale redenering en zet een nieuwe standaard voor hoe AI-systemen visuele en tekstuele informatie samen kunnen redeneren.