Aligning Compound AI Systems via System-level DPO
Die Arbeit stellt SysDPO vor, ein Framework, das die direkte Präferenzoptimierung (DPO) auf komplexe, aus mehreren Komponenten bestehende KI-Systeme erweitert, um diese durch eine graphbasierte Modellierung und systemweite Optimierung effektiv an menschliche Präferenzen anzupassen, ohne auf differenzierbare Interaktionen angewiesen zu sein.