Aligning Compound AI Systems via System-level DPO

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de diriger un orchestre. Vous avez un chef d'orchestre (un grand modèle de langage, comme un LLM) et une section de violons (un générateur d'images, comme DALL-E). Le but est de créer une symphonie parfaite où la musique et les images s'harmonisent.

Le problème, c'est que dans les systèmes actuels, le chef et les violonistes ne se comprennent pas bien. Le chef dit : « Jouez une mélodie triste », et les violonistes jouent quelque chose de joyeux. Ou pire, le chef donne des instructions floues, et les violonistes, bien qu'ils jouent juste, ne comprennent pas l'émotion globale. C'est ce qu'on appelle un système d'IA composé : plusieurs intelligences qui travaillent ensemble, mais qui peinent à s'aligner sur la volonté humaine.

Voici comment les auteurs de cette paper, SysDPO, ont résolu ce problème, expliqué simplement :

1. Le Problème : Le Chef et le Violoniste ne parlent pas la même langue

Dans le passé, on entraînait chaque musicien séparément. On disait au chef : « Apprends à bien diriger » et aux violonistes : « Apprenez à bien jouer ». Mais quand on les met ensemble, ça ne marche pas toujours.

Le mur de la non-différentiabilité : C'est comme si le chef parlait français et les violonistes chinois. On ne peut pas simplement « corriger » le chef en regardant la musique finale, car le message passe par une traduction (le texte) qui brise le lien direct entre l'action et le résultat.
Le problème de la préférence globale : Si le résultat final est raté, qui est le coupable ? Le chef ? Les violonistes ? Ou leur mauvaise communication ? On ne peut pas simplement blâmer l'un ou l'autre isolément.

2. La Solution : SysDPO (L'Entraînement de l'Orchestre Entier)

Les chercheurs ont inventé une nouvelle méthode appelée SysDPO. Au lieu d'entraîner chaque musicien dans son coin, ils entraînent l'orchestre entier comme un seul bloc, en regardant le résultat final.

Ils utilisent deux approches, selon qu'ils peuvent voir ou non ce qui se passe à l'intérieur :

A. SysDPO-Direct : Le Chef d'orchestre avec des lunettes X

Imaginez que vous avez un chef d'orchestre qui peut voir exactement ce que chaque violoniste joue à chaque instant.

Comment ça marche : Vous donnez au système une instruction (ex: « Dessinez un chat qui devient de plus en plus en colère »). Le système génère une séquence : le chef écrit 3 descriptions, puis le générateur d'images crée 3 chats.
L'entraînement : Si le chat final n'est pas assez en colère, on regarde toute la chaîne : la première description, la deuxième, la troisième, et les images. On ajuste le chef ET les violonistes en même temps pour que la séquence entière soit parfaite. C'est comme si on réécrivait la partition et les instructions du chef simultanément.

B. SysDPO-Sampling : Le Chef d'orchestre qui devine

Parfois, on ne peut pas voir ce que font les musiciens à l'intérieur (comme si le chef écrivait ses notes sur un papier qu'on ne voit pas).

Comment ça marche : On demande au chef d'écrire plusieurs versions de ses instructions (par exemple, 4 façons différentes de décrire un chat en colère). On garde les meilleures versions, on les envoie aux violonistes, et on regarde le résultat final.
L'entraînement : Même si on ne voit pas les notes intermédiaires, on dit au système : « Cette version de la partition a donné un meilleur résultat, donc apprends à écrire ce genre de notes ». On utilise une technique de « tirage au sort intelligent » (appelée Diverse Beam Search) pour explorer différentes idées sans tout réécrire à la main.

3. L'Analogie du Dessin Animé

Prenons l'exemple de l'article : faire dessiner un chat qui passe du calme à la rage.

Avant SysDPO : Le chef (LLM) écrit : « Chat calme », « Chat un peu énervé », « Chat très en colère ». Le dessinateur (IA image) dessine un chat calme, puis un chat qui a l'air juste fatigué, puis un chat qui a l'air juste un peu grognon. Le résultat est décevant : l'évolution n'est pas claire.
Avec SysDPO : Le système apprend que pour obtenir un chat vraiment en colère à la fin, le chef doit écrire des descriptions plus précises et le dessinateur doit accentuer les détails (oreilles plaquées, poils hérissés). Après l'entraînement, la séquence devient fluide : le chat passe vraiment du calme à la fureur.

4. Pourquoi c'est génial ?

Cette méthode permet de créer des systèmes d'IA complexes (comme un assistant qui cherche sur le web, lit des articles, et écrit un résumé) qui fonctionnent de manière cohérente.

Pas de blâme isolé : On ne dit pas « C'est la faute du moteur de recherche », on dit « Le système entier doit mieux collaborer ».
Résultats plus humains : Les systèmes alignés avec SysDPO comprennent mieux les nuances et les instructions complexes, comme un vrai humain qui coordonne plusieurs tâches.

En résumé :
SysDPO, c'est passer de l'entraînement de musiciens solitaires à l'entraînement d'un orchestre complet. Au lieu de corriger chaque instrument individuellement, on écoute la symphonie finale et on ajuste tout le monde ensemble pour que la musique (ou l'image, ou le texte) réponde parfaitement à ce que le public (l'humain) attend.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les systèmes d'IA composés (Compound AI Systems) sont des architectures intégrant plusieurs composants interactifs (par exemple, plusieurs LLMs, des modèles de diffusion, des outils externes) pour résoudre des tâches complexes qu'un seul modèle ne peut accomplir. Bien que ces systèmes offrent des performances supérieures, leur alignement avec les préférences humaines pose des défis majeurs que les méthodes traditionnelles (comme le RLHF ou la DPO standard) ne peuvent pas résoudre directement.

Les auteurs identifient trois obstacles principaux :

Interactions non différentiables : Les composants échangent souvent des données via des canaux non différentiables (comme le texte brut), empêchant la rétropropagation du gradient de bout en bout.
Préférences non décomposables : L'alignement d'un système ne peut pas être réduit à la somme des alignements de ses composants individuels. Une coordination efficace entre les modules est cruciale, mais les préférences au niveau du système ne se décomposent pas facilement en préférences au niveau des composants.
Manque de benchmarks granulaires : La plupart des benchmarks évaluent le système final, sans fournir de signaux de récompense pour les étapes intermédiaires.

L'article illustre ce problème avec un exemple où un LLM (GPT-4) génère des prompts pour un générateur d'images (DALL-E). Bien que chaque composant fonctionne correctement individuellement, le système global échoue souvent à produire une progression visuelle cohérente (ex: un chat devenant progressivement plus en colère), car le LLM ne coordonne pas bien ses instructions avec les capacités du modèle de diffusion.

2. Méthodologie : Le Framework SysDPO

Pour surmonter ces défis, les auteurs proposent SysDPO, un cadre d'alignement basé sur l'Optimisation Directe des Préférences (DPO), adapté aux systèmes composés.

A. Modélisation par Graphes Acycliques Dirigés (DAG)

Le système est modélisé comme un DAG où :

Les nœuds représentent les variables : l'entrée $x$ , les sorties intermédiaires $\{y_i\}$ , et les sorties finales $\{z_j\}$ .
Les arêtes représentent le flux de données entre les composants.
Cette structure permet de décomposer la probabilité conjointe de génération du système en un produit de probabilités conditionnelles de chaque modèle individuel.

B. Deux Variantes de SysDPO

Selon la disponibilité des données intermédiaires, deux approches sont proposées :

SysDPO-Direct (avec données intermédiaires observées) :
- Utilisé lorsque le jeu de données de préférence contient à la fois les entrées, les sorties intermédiaires et les sorties finales.
- La fonction de perte DPO est appliquée directement sur l'ensemble des variables générées $s = \{y_i, z_j\}$ .
- La probabilité du système est factorisée : $p_\theta(s|x) = \prod p_{\theta_k}(\text{sortie}_k | \text{entrées}_k)$ .
- Cela permet une optimisation de bout en bout via la descente de gradient, en alignant simultanément tous les composants sur la préférence globale.
SysDPO-Sampling (sans données intermédiaires observées) :
- Conçu pour les scénarios où seules les paires (Entrée, Sortie Finale) sont disponibles (cas le plus courant).
- Puisque la somme sur tous les espaces d'états intermédiaires est intraitable, la méthode approxime la probabilité marginale $p_\theta(z|x)$ en échantillonnant un petit nombre de candidats intermédiaires $\{y^\alpha\}$ probables et diversifiés.
- L'échantillonnage utilise la Diverse Beam Search (DBS) pour garantir la diversité des trajectoires intermédiaires, évitant ainsi les doublons qui dilueraient le signal d'apprentissage.
- La perte DPO est ensuite calculée sur ces échantillons, permettant un alignement end-to-end même sans supervision directe des étapes intermédiaires.

C. Analyse Théorique

Les auteurs démontrent que SysDPO atteint un alignement $\beta$ -parfait dans le cadre théorique (population setting). Ils prouvent que si le modèle optimal minimise la perte SysDPO, il satisfait la relation de Bradley-Terry par rapport à l'oracle de préférence, généralisant ainsi les garanties de la DPO standard aux systèmes complexes.

3. Contributions Clés

Formalisation DAG : Modélisation rigoureuse des systèmes d'IA composés comme des graphes acycliques dirigés pour gérer les flux de données complexes.
Framework SysDPO : Introduction d'une méthode unifiée permettant l'alignement conjoint de multiples modèles, avec deux variantes adaptées aux contraintes de données (Direct vs Sampling).
Preuve de convergence : Analyse théorique établissant que la méthode converge vers un alignement optimal sous des hypothèses raisonnables.
Validation Empirique : Application réussie sur deux cas d'usage distincts (LLM + Diffusion et Collaboration LLM-LLM).

4. Résultats Expérimentaux

Les expériences ont été menées sur deux applications principales :

A. Alignement LLM + Modèle de Diffusion (Texte vers Image)

Tâche : Générer une séquence d'images montrant une progression d'une émotion (ex: colère croissante).
Résultats :
- Le système non aligné ("Before Alignment") a un taux de cohérence d'ordre (Order Consistency Ratio) de 32%.
- L'alignement séparé (uniquement le LLM ou uniquement le Diffusion) améliore les résultats mais reste sous-optimal (65% et 38% respectivement).
- SysDPO-Direct atteint le meilleur score avec 73% de cohérence d'ordre et le score de préférence le plus élevé (0.25).
- Conclusion : L'alignement conjoint est essentiel pour que le LLM comprenne comment formuler des instructions qui guident efficacement le modèle de diffusion vers un résultat cohérent.

B. Système de Collaboration LLM (Question-Réponse à deux étapes)

Tâche : Un premier LLM génère une réponse intermédiaire, un second la raffine.
Résultats :
- SysDPO-Sampling bat significativement les baselines (système par prompts, alignement séparé par DPO).
- Taux de victoire (Win Rate) contre les réponses humaines préférées : 19.8% pour SysDPO-Sampling contre 12.8% pour le système par prompts et 16.6% pour l'alignement séparé.
- L'analyse montre que l'alignement conjoint permet une meilleure adaptation coopérative des deux modèles, là où l'alignement séparé échoue à optimiser la coordination globale.

5. Signification et Impact

Cet article représente une avancée significative dans le domaine de l'alignement des IA. Il démontre que l'approche "aligner chaque composant individuellement" est insuffisante pour les systèmes composés complexes.

Changement de paradigme : Il passe d'une optimisation locale (composant par composant) à une optimisation systémique (holistique), reconnaissant que la performance globale dépend de l'interaction dynamique entre les modules.
Faisabilité pratique : En proposant des méthodes fonctionnant même sans données intermédiaires (via l'échantillonnage), SysDPO rend l'alignement de systèmes complexes accessible sans nécessiter de coûts de annotation prohibitifs.
Applications futures : Ce cadre ouvre la voie à des systèmes plus robustes dans des domaines critiques comme la santé, l'éducation ou la robotique, où la coordination entre plusieurs agents ou outils est vitale pour la sécurité et l'efficacité.

En résumé, SysDPO fournit les outils théoriques et pratiques nécessaires pour transformer des collections de modèles d'IA en systèmes composés véritablement alignés et performants.