Aligned but Stereotypical? How System Prompts Shape… — Begrijpelijke uitleg

Oorspronkelijke auteurs: NaHyeon Park, Na Min An, Kunhee Kim, Soyeon Yoon, Jiahao Huo, Hyunjung Shim

Gepubliceerd 2026-06-15

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: NaHyeon Park, Na Min An, Kunhee Kim, Soyeon Yoon, Jiahao Huo, Hyunjung Shim

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Het Grote Idee: De "Overenthousiaste Vertaler"

Stel je voor dat je een tekening wilt maken op basis van een eenvoudige zin, zoals "Een botanicus."

Bij oudere tekenmachines geef je de zin direct aan de kunstenaar. De kunstenaar tekent een botanicus, maar kan daarbij vertrouwen op hun eigen oude gewoontes of stereotypen (bijv. het tekenen van alleen witte mannen).

Bij nieuwere, slimmere tekenmachines (de machines die dit paper onderzoekt), is er een extra stap. Voordat de kunstenaar jouw zin te zien krijgt, leest een slimme vertaler (een AI-taalmodel) deze eerst. Deze vertaler is bedoeld om te helpen door details toe te voegen om de afbeelding beter te maken. Het kan bijvoorbeeld "Een botanicus" veranderen in "Een botanicus in een groen veld met een hoed op, die een vergrootglas vasthoudt."

Het Probleem: Het paper ontdekte dat deze "slimme vertaler" vaak ongewenste stereotypen toevoegt terwijl hij probeert behulpzaam te zijn. Zelfs als je niet vroeg om een specifiek geslacht, ras of leeftijd, kan de vertaler ervan uitgaan: "Oh, botanici zijn meestal witte mannen," en die details toevoegen aan de instructies voordat de kunstenaar überhaupt begint met tekenen.

Het Onderzoek: De "COMPBIAS" Test

De onderzoekers bouwden een enorme testset genaamd COMPBIAS (denk eraan als een gestandaardiseerd examen voor tekenmachines). Ze testten 1.024 verschillende prompts, variërend van heel simpel ("Een dokter") tot zeer complex ("Een dokter die een patiënt redt in een druk ziekenhuis").

Ze vergeleken twee soorten machines:

Old School: Directe instructies naar de kunstenaar.
New School: Instructies gaan eerst via de "slimme vertaler".

De Bevindingen:

De "New School" machines waren meer bevooroordeeld. Ze produceerden afbeeldingen met veel sterkere stereotypen (bijv. voornamelijk witte mannen voor "artsen") dan de oude machines.
De "Alignment Trap" (De Aanpassingsval): De nieuwe machines waren eigenlijk beter in het opvolgen van jouw instructies en het maken van hoogwaardige afbeeldingen. Maar het paper vond een afruil: hoe beter ze waren in het begrijpen van jouw woorden, hoe meer ze in stereotypen leunden wanneer je geen details specificeerde.
Complexiteit maakt het erger: Hoe complexer je prompt was, hoe meer de vertaler stereotype details toevoegde, waardoor de bias sterker werd.

De Boosdoener: De "System Prompt"

De onderzoekers zoch even diep om te ontdekken waarom dit gebeurt. Ze ontdekten dat de boosdoener de System Prompt is.

Beschouw de System Prompt als het regelboek of het memo van de manager dat aan de slimme vertaler wordt gegeven. Het vertelt de vertaler hoe hij zich moet gedragen.

Het paper vond dat deze standaard regelboeken vaak verborgen aannames bevatten.
Wanneer de vertaler een neutrale prompt leest zoals "Een rechter", duwt het regelboek de vertaler in de richting van een specif kind van een specifiek type persoon (bijv. een oudere witte man) voordat hij zelfs maar de beschrijving voor de kunstenaar schrijft.
De onderzoekers bewezen dit door naar de "gedachten" (tekst-embeddings) van de machine te kijken. Ze zagen dat de vertaler stiekem neutrale woorden veranderde in bevooroordeelde woorden voordat de afbeelding überhaupt werd gemaakt.

De Oplossing: "FAIRPRO" (De Fairnes Coach)

De onderzoekers wilden de slimme vertaler niet zoma van de hand wijzen, want het maakt de plaatjes juist geweldig. In plaats daarvan creëerden ze een oplossing genaamd FAIRPRO.

Hoe het werkt:
Stel je voor dat de slimme vertaler een coach heeft die naast hem staat.

De Coach Controleert de Prompt: Wanneer je zegt "Een botanicus", kijkt de coach naar het regelboek van de vertaler.
De Coach Herschrijft de Regels: In plaats van de vertaler te laten gokken, geeft de coach een nieuwe, tijdelijke instructie: "Deze persoon is een botanicus. Ga niet uit van hun geslacht, ras of leeftijd. Houd het divers."
Het Resultaat: De vertaler voegt nog steeds nuttige details toe (zoals de hoed en het vergrootglas), maar stopt met ervan uitgaan dat de botanicus een witte man is. Het creëert een meer diverse mix van afbeeldingen.

Waarom het bijzonder is:

Geen Her-training: Ze hoefden niet de hele machine opnieuw te bouwen of het de machine nieuwe dingen te leren. Ze veranderden alleen de instructies die hij krijgt terwijl hij werkt.
Respecteert Jou: Als je wel zegt "Een vrouwelijke botanicus", respecteert de coach dat en houdt het geslacht vrouwelijk, maar zorgt het nog steeds voor een diverse race en leeftijd. Het corrigeert alleen de onderdelen die je niet hebt gespecificeerd.

De Kernboodschap

Het paper laat zien dat de "slimme" onderdelen van moderne AI-beeldgeneratoren juist de bron zijn van nieuwe soorten bias. Door simpelweg de instructies aan te passen die aan deze slimme vertalers worden gegeven (de System Prompts), kunnen we voorkomen dat ze onrechtvaardige aannames doen zonder de kwaliteit van de afbeeldingen te ruïneren. Het is alsoals een behulpzame assistent leren om te stoppen met het raden van je voorkeuren en in plaats daarvan te vragen: "Wie moet ik tekenen?" voordat hij aannames doet.

Technische Samenvatting: Gevoegd maar Stereotiep? Hoe Systeem-prompts Demografische Vooringenomenheid in LLM-gebaseerde Tekst-naar-Beeld Modellen Vormgeven

Probleemstelling
Recente Tekst-naar-Beeld (T2I) systemen maken steeds vaker gebruik van Large Language Models (LLM's) voor tekstconditiering om gebruikersprompts te interpreteren en uit te breiden, met als doel de tekst-beeld-uitlijning en compositionele redenering te verbeteren. Dit onderzoek identificeert echter een kritiek neveneffect: de integratie van LLM-gebaseerde conditiering introduceert impliciete demografische aannames in de beeldgeneratie, zelfs wanneer gebruikersprompts neutraal of ondergespecificeerd zijn. De auteurs stellen dat deze systemen, hoewel ze de prompt-naleving verbeteren, tegelijkertijd de demografische scheefheid kunnen versterken, wat een rechtvaardigheid–uitlijning-trade-off creëert. Een specifieke focus wordt gelegd op systeem-prompts—ingebedde instructies die de LLM sturen bij het interpreteren van gebruikersinputs—als een voorheen onverkend pad voor de propagatie van vooringenomenheid.

Methodologie
Om dit fenomeen te onderzoeken, introduceren de auteurs COMPBIAS, een uitgebreide benchmark bestaande uit 1.024 prompts georganiseerd in vier complexiteitsniveaus:

Neutraal (L1): Beroepsprompts (bijv. "Een botanicus").
Attribuut (L2): Prompts met één expliciet demografisch attribuut (bijv. "Een Aziatische botanicus").
Attribuut + Context (L3): Prompts verrijkt met actiecontexten.
Uitgebreid (L4): Langdurige beschrijvingen gegenereerd door een LLM vanuit basisberoepen.

De studie evalueert acht recente T2I-modellen, inclus\u00f3f non-LLM baselines (bijv. SD3.5, FLUX.1) en LLM-gebaseerde systemen (bijv. SANA1.5, Qwen-Image, FLUX.2). Vooringenomenheid wordt gekwantificeerd met een genormaliseerde Fair Discrepancy (FD) score, die de afwijking van gegenereerde demografische distributies van een uniforme referentie meet, terwijl getrouwheid (fidelity) wordt beoordeeld via CLIP-similariteit en GenEval.

Belangrijkste Bevindingen en Diagnostische Analyse

LLM-geïnduceerde Vooringenomenheid: LLM-gebaseerde T2I-systemen vertonen consistent hogere demografische vooringenomenheidsscores dan non-LLM baselines over alle promptcomplexiteitsniveaus. Bovendien, naarmate prompts complexer worden, nemen zowel de tekst-beeld-uitlijning als de demografische vooringenomenheid toe, wat een spanning onthult tussen semantische getrouwheid en rechtvaardigheid.
De Rol van Systeem-prompts: Door middel van gecontroleerde analyse in de tekst-embeddingruimte demonstreren de auteurs dat standaard systeem-prompts neutrale gebruikersinputs actief hervormen naar demografisch vooringenomen representaties voordat de beeld-synthese begint.
- Embedding Shift: Het verwijderen van systeem-prompts verzwakt genderassociaties in tekst-embeddings zonder de semantische getrouwheid significant te verslechteren.
- Gedecodeerde Tekst: Het decoderen van intermediaire tekstrepresentaties onthult dat systeem-prompts demografische beschrijvers (bijv. gendertermen) introduceren die afwezig zijn in de oorspronkelijke gebruikersprompt.
- Propagatie: Er is een sterke correlatie (6 64% overeenkomst) tussen de demografische attributen die in de gedecodeerde tekst worden afgeleid en de uiteindelijke gegenereerde beelden, wat bevestigt dat vooringenomenheid propageert van taal-zijde verwerking naar visuele outputs.

Voorgestelde Oplossing: FAIRPRO
Gemotiveerd door de bevinding dat systeem-prompts een primaire bron van vooringenomenheid zijn, stellen de auteurs FAIRPRO (FAIRness-aware System PROmpt) voor, een training-vrije, test-tijd de-biasing framework.

Mechanisme: In plaats van systeem-prompts te verwijderen (wat de verrijking vermindert) of gebruikersprompts te herschrijven (wat minder effectief is), genereert FAIRPRO dynamisch input-specifieke, rechtvaardigheidsbewuste systeeminstructies.
Proces: Gegeven een gebruikersprompt $u$ , gebruikt FAIRPRO een LLM om potentiële stereotiepe voltooiingen te identificeren en construeert een herziene systeem-prompt $s_{fair}$ die expliciet gespecificeerde gebruikersrestricties (bijv. "mannelijk") behoudt terwijl zij diversiteit afdwingt op niet-gespecificeerde attributen (bijv. etniciteit, leeftijd).
Efficiëntie: De methode vereist slechts één extra LLM-call, wat resulteert in minimale computationele overhead (bijv. ~1.05x voor Qwen-Image) en geen wijzigingen in de onderliggende beeldgenerator-architectuur.

Resultaten
Experimenten over acht modellen en de COMPBIAS-benchmark tonen aan dat FAIRPRO:

Vooringenomenheid Vermindert: Verlaagt demografische vooringenomenheidsscores aanzienlijk op het gebied van gender, leeftijd, etniciteit en uiterlijke kenmerken vergeleken met zowel de standaardinstellingen als de "geen systeem-prompt" baselines.
Getrouwheid Behoudt: Behoudt een hoge tekst-beeld-uitlijning en prompt-controleerbaarheid, waardoor het verlies van getrouwheid dat gepaard gaat met het simpelweg verwijderen van systeem-prompts wordt vermeden.
Diversiteit Verhoogt: Verhoogt de visuele diversiteit in pose, kleding en achtergrond voor niet-gespecificeerde attributen zonder expliciete gebruikersrestricties te overschrijven.
Generaliseert: Toont robuuste prestaties op externe benchmarks (TIBET) en over verschillende modelfamilies heen.
Ablatie: De studie bevestigt dat input-adaptieve prompting en gestructureerde zelf-audit essentieel zijn; statische rechtvaardigheidsinstructies of het enkel herschrijven van de gebruikersprompt zijn onvoldoende.

Betekenis en Claims
Het artikel claimt dat LLM-gebaseerde tekstconditiering niet louter een passieve interface is voor promptbegrip, maar een actief mechanisme dat demografische vooringenomenheid kan coderen en overdragen. De betekenis van dit werk ligt in:

Identificatie van een Nieuwe Bias Vector: Het benadrukken van systeem-prompts als een kritiek, onverkend interventiepunt voor vooringenomenheid in moderne T2I-systemen.
Diagnostisch Inzicht: Het leveren van bewijs dat vooringenomenheid upstream ontstaat in de taal-conditieringsfase, waardoor de focus van mitigatie verschuift van beeldgeneratie naar promptinterpretatie.
Praktische Mitigatie: Het introduceren van FAIRPRO als een effectieve, model-agnostische en training-vrije oplossing die rechtvaardigheid balanceert met de verbeterde capaciteiten van LLM-gebaseerde conditiering.

De auteurs hanteren een bescheiden standpunt door te erkennen dat hun aanpak de vooringenomen output-distributies op test-tijd mitigeert, maar de in de onderliggende generatieve modellen's parameters gecodeerde biases niet verwijdert. Ze merken ook beperkingen op met betrekking tot het gebruik van discrete demografische categorieën en de contextafhankelijkheid van het definiëren van "rechtvaardige" distributies.

Aligned but Stereotypical? How System Prompts Shape Demographic Bias in LLM-Based Text-to-Image Models