Aligning Compound AI Systems via System-level DPO

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel team van experts samenstelt om een complexe taak te doen. Je hebt een schrijver (een taalmodel), een tekenaar (een beeldgenerator) en misschien nog een onderzoeker (een zoekmachine). Samen vormen ze een "Compound AI System" – een samengesteld AI-systeem.

Het probleem? Als je deze experts apart traint, werken ze misschien prima alleen, maar als ze samenwerken, raken ze de draad kwijt. De schrijver beschrijft een "boze kat", maar de tekenaar tekent een "slaperige kat". Ze praten niet goed met elkaar, omdat ze niet weten wat de ander precies nodig heeft.

Dit paper introduceert een nieuwe manier om deze teams te trainen, genaamd SysDPO. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Blindganger" in het Team

Normaal gesproken leer je een AI door te kijken naar de eindresultaat en te zeggen: "Goed gedaan!" of "Slecht gedaan!". Maar bij een team van AI's is dat lastig.

Het is niet te meten: De schrijver schrijft een tekst, en die tekst is "niet meetbaar" voor de tekenaar. Je kunt de gradienten (de leer-signalen) niet makkelijk van de tekenaar terugsturen naar de schrijver.
De einddoel is niet genoeg: Als het eindresultaat slecht is, weet je niet of de schrijver de verkeerde tekst schreef, of dat de tekenaar de verkeerde tekst interpreteerde.

Het is alsof je een chef-kok en een serveerder hebt. Als het eten koud aankomt bij de klant, weet je niet of de kok het verkeerd heeft bereid of de serveerder te lang heeft gewacht. Je moet ze samen leren werken.

2. De Oplossing: SysDPO (Het Team-Coach)

De auteurs noemen hun methode SysDPO. Ze behandelen het AI-team als een stroomdiagram (een DAG). Ze kijken niet alleen naar het eindresultaat, maar naar elke stap in het proces.

Ze hebben twee manieren om dit te doen, afhankelijk van wat je kunt zien:

Manier A: SysDPO-Direct (De "Open Keuken")

Stel je voor dat je in de keuken kunt kijken terwijl de kok werkt. Je ziet het rauwe vlees, de snijtechniek en het eindgerecht.

Hoe het werkt: Je hebt een dataset waarin je alle tussenstappen ziet (de tekst van de schrijver én het beeld van de tekenaar).
De truc: Je traint het hele team tegelijk. Als het eindresultaat slecht is, kijkt het systeem precies naar welke stap fout ging. Was de tekst vaag? Dan traint hij de schrijver. Was de tekst goed maar de tekening raar? Dan traint hij de tekenaar.
Resultaat: Ze leren perfect op elkaar af te stemmen.

Manier B: SysDPO-Sampling (De "Gokker met een Plan")

Soms kun je de tussenstappen niet zien (bijvoorbeeld als de AI intern denkt zonder dat je de gedachten ziet). Je ziet alleen de vraag en het eindantwoord.

Hoe het werkt: De AI moet zelf een paar mogelijke tussenstappen "gokken".
De creatieve analogie: Stel je voor dat je een chef vraagt om een gerecht te maken, maar je ziet alleen het eindresultaat. De chef zegt: "Ik denk dat ik eerst A, B of C heb gedaan."
- De oude methode zou willekeurig gokken (zoals een dobbelsteen gooien).
- SysDPO-Sampling gebruikt een slimme techniek (Diverse Beam Search) om te gokken op de meest waarschijnlijke en verschillende tussenstappen. Het kiest niet 5 keer hetzelfde, maar kiest 2 heel verschillende, slimme opties.
De leerkracht: Het systeem vergelijkt deze gemaakte tussenstappen met het eindresultaat. Als een bepaalde "gok" over de tussenstap leidt tot een beter eindresultaat, leert het team die strategie. Het is alsof je de chef laat oefenen met verschillende recepten om te zien welke het beste werkt.

3. Wat hebben ze bewezen?

Ze hebben dit getest op twee scenario's:

Tekst naar Beeld: Een AI schrijft beschrijvingen van katten die steeds bozer worden, en een andere AI tekent ze.
- Vóór training: De katten werden soms boos, soms verdrietig, soms weer rustig. Geen duidelijke lijn.
- Na training: De katten werden perfect bozer en bozer. De tekst en de tekening werkten als een goed getraind duo.
AI met AI: Twee taalmodellen die samen een vraag beantwoorden (de ene schrijft een antwoord, de andere verbetert het).
- Vóór training: Ze werkten als twee mensen die langs elkaar heen praten.
- Na training: Ze werkten als één slim team. Het antwoord was veel beter dan als je ze apart had getraind.

Samenvatting in één zin

SysDPO is een slimme coach die een team van AI's niet alleen leert hoe ze individueel goed moeten presteren, maar vooral leert hoe ze samen moeten werken, zelfs als ze niet direct met elkaar kunnen "praten" of als je niet elke stap van hun denken kunt zien.

Het zorgt ervoor dat de schrijver, de tekenaar en de onderzoeker eindelijk dezelfde visie delen, zodat het eindresultaat precies is wat de mens wil.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Aligning Compound AI Systems via System-level DPO" in het Nederlands.

Titel: Aligning Compound AI Systems via System-level DPO

Auteurs: Xiangwen Wang, Yibo Jacky Zhang, et al. (Stanford University, UIUC, Mila)
Conferentie: NeurIPS 2025

1. Het Probleem

Compound AI-systemen bestaan uit meerdere interacterende componenten (zoals Large Language Models, foundation models en externe tools) die samenwerken om complexe taken te voltooien. Hoewel deze systemen superieure prestaties leveren vergeleken met enkele modellen, is het aligneren (afstemmen) ervan op menselijke voorkeuren een groot uitdaging.

De huidige methoden voor het aligneren van enkele modellen, zoals Direct Preference Optimization (DPO) en Reinforcement Learning from Human Feedback (RLHF), zijn niet direct toepasbaar op compound systemen vanwege drie hoofdbeperkingen:

Niet-differentieerbare interacties: Componenten communiceren vaak via niet-differentieerbare kanalen (bijv. natuurlijke taal of bestandsuitwisseling), wat end-to-end gradient-based optimalisatie onmogelijk maakt.
Niet-decomposeerbare voorkeuren: Systemische voorkeuren kunnen niet simpelweg worden opgesplitst in individuele voorkeuren per component. Effectieve coördinatie tussen componenten is essentieel, maar dit gaat verloren bij geïsoleerde alignering.
Gebrek aan benchmarks: De meeste benchmarks evalueren het volledige systeem, terwijl er vaak geen fijnmazige benchmarks bestaan voor de sub-taken van individuele componenten.

Een concreet voorbeeld uit het paper is een systeem waarbij een LLM (GPT-4) beschrijvingen genereert voor een beeldgenerator (DALL-E). Zelfs als beide modellen afzonderlijk goed presteren, kan het systeem falen in het tonen van een logische progressie (bijv. "een kat die steeds bozer wordt") omdat de coördinatie tussen de twee ontbreekt.

2. Methodologie: Het SysDPO Framework

De auteurs introduceren SysDPO, een framework dat DPO uitbreidt naar systeemniveau. Ze modelleren compound AI-systemen als Gerichte Acyclische Grafen (DAGs), waarbij knopen variabelen vertegenwoordigen (input, tussenresultaten, output) en randen de dataflow aangeven.

Op basis van deze DAG-structuur worden twee varianten ontwikkeld, afhankelijk van de beschikbaarheid van tussenresultaten:

A. SysDPO-Direct

Scenario: Gebruikt wanneer tussenresultaten (intermediate outputs) in het voorkeursdataset zichtbaar en observeerbaar zijn.
Methode: De waarschijnlijkheid van de volledige systeemoutput wordt ontbonden in een product van de waarschijnlijkheden van individuele componenten.
$p_\theta(s|x) = \prod p_{\theta_i}(y_i | Pa(y_i)) \cdot \prod p_{\theta_j}(z_j | Pa(z_j))$
Hierbij is $s$ de verzameling van alle gegenereerde variabelen (tussenresultaten en eindresultaten).
Optimalisatie: De standaard DPO-loss wordt toegepast op de volledige set $s$ in plaats van alleen op de eindoutput $z$ . Dit maakt end-to-end optimalisatie mogelijk via gradient descent, zelfs als de interacties niet-differentieerbaar zijn, omdat de loss-functie wordt berekend op basis van de geobserveerde paden.

B. SysDPO-Sampling

Scenario: Gebruikt wanneer tussenresultaten niet beschikbaar zijn in het dataset (alleen input en gerangschikte eindoutput).
Methode: Omdat de som over alle mogelijke tussenresultaten ( $\sum_y p(z|x, y)p(y|x)$ ) onberekenbaar is, benadert het framework deze som door te samplen.
Techniek: Er wordt gebruikgemaakt van Diverse Beam Search (DBS) om een kleine set van diverse en waarschijnlijke tussenresultaten ( $y^\alpha$ ) te genereren. De loss-functie wordt dan benaderd door te middelen over deze gesamplede paden.
Voordeel: Dit maakt end-to-end training mogelijk zonder dat er een dataset met tussenstappen nodig is, wat het toepasbaar maakt op bestaande datasets.

3. Belangrijkste Bijdragen

Formulering als DAG: Het modelleren van compound systemen als DAGs om dataflow en conditional independence expliciet te maken.
SysDPO Framework: De introductie van twee varianten (Direct en Sampling) die DPO uitbreiden naar multi-component systemen.
Theoretische Garantie: Een bewijs dat SysDPO, onder bepaalde aannames (zoals een uniforme referentiemodel en diverse trainingsdata), leidt tot $\beta$ -perfecte alignering op populatieniveau. Dit generaliseert de theoretische garanties van standaard DPO naar compound systemen.
Empirische Validatie: Toepassing op twee verschillende scenario's:
- Een LLM gecombineerd met een diffusion model (tekst-naar-beeld).
- Een collaboratief systeem van twee LLMs (multi-stage vraag-antwoord).

4. Resultaten

De auteurs testen hun methoden op twee applicaties:

Applicatie 1: LLM + Diffusion Model

Taak: Genereren van een reeks afbeeldingen met een progressieve verandering in een attribuut (bijv. boosheid van een kat).
Resultaten:
- Het ongetrainde systeem (instruction-tuned componenten) had een Order Consistency Ratio van slechts 32%.
- Het trainen van alleen de taalmodel leverde een verbetering op tot 65%.
- SysDPO-Direct (gezamenlijke training) bereikte de beste prestaties met een ratio van 73% en een hogere voorkeurscore.
- Conclusie: Gezamenlijke alignering is cruciaal; het trainen van componenten apart is onvoldoende voor coherente systeemgedrag.

Applicatie 2: Compound LLM Collaboration (Twee LLMs)

Taak: Een twee-staps systeem waar de eerste LLM een antwoord genereert en de tweede dit verfijnt.
Resultaten:
- SysDPO-Sampling verbeterde de win-rate tegen menselijke voorkeuren van 12,8% (prompt-only) naar 19,8% (een relatieve verbetering van 55%).
- Het presteerde significant beter dan Separate-DPO (waarbij elke stap apart wordt getraind), wat aantoont dat systeemniveau-feedback essentieel is.
- Analyse toonde aan dat beide componenten profiteren van gezamenlijke training, maar dat de tweede component (die de eindoutput genereert) de grootste impact heeft op de kwaliteit.

5. Betekenis en Toekomstperspectief

Deze paper biedt een fundamentele oplossing voor het aligneren van complexe, multi-component AI-systemen, een gebied dat steeds belangrijker wordt naarmate AI-toepassingen meer geïntegreerd worden.

Praktische Impact: Het framework maakt het mogelijk om systemen te optimaliseren die uit verschillende modellen bestaan zonder dat deze allemaal differentieerbaar moeten zijn of dat er specifieke datasets voor elke sub-taak nodig zijn.
Toekomstige Richtingen: De auteurs wijzen op uitdagingen zoals het uitbreiden naar systemen met nog meer componenten, het verbeteren van de trainingsefficiëntie (vooral bij hoge dimensies zoals in beeldverwerking), en het aanpassen van het framework voor dynamische systemen met feedback-loops.

Kortom, SysDPO bewijst dat het gezamenlijk optimaliseren van een compound AI-systeem op basis van systeemniveau-voorkeuren leidt tot aanzienlijk betere prestaties en betrouwbaarder gedrag dan het optellen van geïsoleerd getrainde componenten.