Concept Heterogeneity-aware Representation Steering

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een groot taalmodel (zoals een slimme chatbot) een enorme, complexe stad is. In deze stad wonen miljarden "ideeën" en "gedragingen" die allemaal op hun eigen manier zijn opgeslagen in de straten en gebouwen van het digitale brein.

Soms willen we deze stad een beetje herschikken. We willen bijvoorbeeld dat de chatbot niet meer scheldt (toxiciteit verminderen) of juist wel een bepaalde stijl aanneemt (bijvoorbeeld "cyberpunk").

Het oude probleem: De "Eén Groot Duw"

Tot nu toe hebben onderzoekers dit gedaan met een heel simpele methode: ze keken naar twee groepen mensen in de stad (bijvoorbeeld "boze mensen" en "vriendelijke mensen"), berekenden het gemiddelde verschil tussen hen, en gaven één grote duw in die richting.

De analogie: Stel je voor dat je een hele menigte mensen wilt laten veranderen van "boos" naar "vriendelijk". De oude methode zegt: "Iedereen, loop precies 5 stappen naar rechts!"
Het probleem: Dit werkt niet goed. Sommige boze mensen staan al dicht bij de vriendelijke kant, anderen staan heel ver weg. Als je iedereen dezelfde duw geeft, raken sommigen in de war, worden anderen niet echt vriendelijk, en de stad raakt in de war. Het gaat ervan uit dat "boosheid" overal in de stad precies hetzelfde is, maar dat is niet zo.

De nieuwe oplossing: CHaRS (De Slimme Verkeersleider)

De auteurs van dit papier, Laziz en zijn team, hebben een nieuwe manier bedacht die ze CHaRS noemen. In plaats van één grote duw, kijken ze naar de verschillende clusters (groepen) binnen de stad en sturen ze die groepen op een slimme manier.

Hier is hoe het werkt, in drie simpele stappen:

1. De Stad in Buurten verdelen (Klustering)

In plaats van te denken dat "boosheid" één groot blok is, zien ze dat het eigenlijk bestaat uit verschillende buurten:

Buurt A: Mensen die boos zijn omdat ze gefrustreerd zijn.
Buurt B: Mensen die boos zijn omdat ze een grapje maken.
Buurt C: Mensen die boos zijn omdat ze een kwaadaardig plan hebben.

Elke buurt heeft zijn eigen locatie in de stad.

2. De Slimme Routeplanner (Optimal Transport)

Nu gebruiken ze een wiskundig concept dat lijkt op logistiek of vervoer. Ze vragen zich af: "Welke mensen uit Buurt A moeten naar welke vriendelijke buurt gaan? En welke uit Buurt B?"

De analogie: In plaats van iedereen naar rechts te duwen, kijken ze naar een kaart. Ze zien dat Buurt A dicht bij "Vriendelijk-Buurtsje 1" ligt, maar Buurt B juist dicht bij "Vriendelijk-Buurtsje 2".
Ze maken een slim plan: "Jullie in Buurt A, loop naar links. Jullie in Buurt B, loop naar rechts."
Dit heet Optimal Transport (Optimaal Vervoer). Het zorgt ervoor dat elke groep op de meest efficiënte en natuurlijke manier wordt verplaatst, zonder de stad in de war te sturen.

3. De Vloeiende Overgang (Input-Afhangend)

Het allerbelangrijkste is dat CHaRS slim reageert op wat je zegt.

Als jij een zin typt die lijkt op Buurt A, geeft het systeem een kleine duw in de richting van Vriendelijk-Buurtsje 1.
Als jij een zin typt die lijkt op Buurt B, geeft het een duw in de richting van Vriendelijk-Buurtsje 2.

Het is alsof je een slimme verkeersleider hebt die niet iedereen hetzelfde gebaar maakt, maar voor elke auto (elke zin) de beste route wijst. Dit zorgt voor een veel soepelere en betere verandering.

Waarom is dit zo cool?

De auteurs hebben dit getest op verschillende taken:

Jailbreaking: Ze konden de chatbot makkelijker "om de tuin leiden" om schadelijke dingen te zeggen (voor onderzoek), wat betekent dat ze de controle over het model beter begrijpen.
Toxiciteit verminderen: Ze konden de chatbot veel beter "vriendelijk" maken zonder dat hij stopte met praten of rare dingen ging zeggen.
Stijl veranderen: Ze konden een plaatje maken dat eruitzag als een "cyberpunk" tekening, terwijl de inhoud hetzelfde bleef.

De Samenvatting

Vroeger dachten we dat we een robot konden sturen met één simpele knop ("Druk hier om aardig te zijn").
Nu weten we dat het brein van een robot complex is, met veel verschillende hoekjes en buurten. CHaRS is de nieuwe, slimme methode die elke hoekje apart behandelt en een perfect pad voorstelt. Het is als het verschil tussen een hamer die op alles slaat, en een chirurg die precies weet waar hij moet snijden.

Het resultaat? Een chatbot die zich beter laat sturen, minder snel fouten maakt, en precies doet wat je wilt, op de manier die het beste past bij wat je zegt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande methoden voor representatiesturing (representation steering) van grote taalmodellen (LLMs) vertrouwen doorgaans op een enkele, globale stuurvector. Deze vector wordt meestal berekend als het verschil in gemiddelde activaties (difference-in-means) tussen twee contrastieve datasets (bijv. schadelijk vs. onschadelijk).

Deze aanpak maakt een fundamentele, maar vaak onjuiste aanname: dat het concept dat gestuurd moet worden, homogeen is verdeeld in de inbeddingsruimte van het model. In werkelijkheid vertonen LLM-representaties echter vaak een geclusterde, niet-homogene structuur. Een enkel concept (zoals "weigeren" of "giftig") kan zich op verschillende manieren manifesteren afhankelijk van de context of sub-concepten. Een uniforme verschuiving (globale translatie) negeert deze nuances, wat leidt tot onconsistente controle en minder effectieve sturing.

Methodologie: CHaRS

De auteurs introduceren Concept Heterogeneity-aware Representation Steering (CHaRS), een methode die representatiesturing bekijkt door de lens van Optimaal Transport (Optimal Transport - OT).

Van Unimodaal naar Multimodaal:
- In plaats van representaties te modelleren als één enkel Gaussisch verdeling (wat leidt tot een simpele translatie), modelleren de auteurs de bron- en doeldistributies als Gaussische Mengsels (Gaussian Mixture Models - GMMs).
- Dit erkent dat de latent ruimte van een LLM multimodaal is, met verschillende clusters die verschillende semantische subregio's vertegenwoordigen.
Discreet Optimaal Transport:
- Het sturingsprobleem wordt geformuleerd als een discreet OT-probleem tussen semantische latent-clusters.
- De auteurs gebruiken de Mixture Wasserstein Distance om de bron- en doeldistributies te aligneren. Dit omvat het oplossen van een transportplan dat bepaalt hoe massa (activaties) van bronclusters naar doelclusters moet worden verplaatst.
Input-afhankelijke Stuurkaart:
- Uit het transportplan wordt een expliciete, input-afhankelijke stuurkaart afgeleid via barycentrische projectie.
- In plaats van één vaste vector, wordt de stuurvector voor een specifieke input $x$ berekend als een gladde, kernel-gewogen combinatie van cluster-niveau verschuivingen.
- De formule voor de stuurkaart $\hat{T}(x)$ is:
  $\hat{T}(x) = x + \alpha \sum_{i,j} \frac{P^*_{ij} k(x, a_i)}{\sum_{p,q} P^*_{pq} k(x, a_p)} v_{ij}$
  Waarbij $P^*$ het optimale koppelingsplan is, $k$ een kernel-functie (RBF) is die de afstand tot clustercentroïden meet, en $v_{ij}$ de lokale translatievector tussen clusters is.
CHaRS-PCT (Principal Component Thresholding):
- Om de efficiëntie te verhogen en ruis te verminderen, analyseren de auteurs de covariantie van de stuurvectoren. Ze stellen vast dat deze inherent laag-rang (low-rank) is.
- Ze introduceren Principal Component Thresholding (PCT): alleen de belangrijkste hoofdcomponenten (PC's) worden behouden voor de sturing. Dit resulteert in CHaRS-PCT, dat minder stuurrichtingen gebruikt maar vergelijkbare of betere prestaties levert.

Belangrijkste Bijdragen

Generalisatie van Sturing: De auteurs generaliseren representatiesturing van restrictieve unimodale Gaussische aannames naar multimodale GMMs, en formuleren sturing als een discreet OT-probleem tussen semantische clusters.
CHaRS Framework: Ze ontwikkelen een innovatieve, input-afhankelijke sturingsmethode waarbij de richting glad varieert over het representatiemanifold, waardoor contextgevoelige controle mogelijk wordt.
Factorisatie en PCT: Ze introduceren Principal Component Thresholding om de stuurvectoren te ontwarren (disentangle) en te reduceren tot een laag-rang structuur, wat leidt tot CHaRS-PCT.

Resultaten

De methode werd geëvalueerd op diverse modellen (Gemma2, Llama3, Qwen2.5) met parameters van 3B tot 32B, in drie hoofdtaken:

Jailbreaking: CHaRS overtrof consistent de bestaande baselines (Activation Addition en Directional Ablation) in Attack Success Rate (ASR). Bijvoorbeeld, bij Gemma2-9B-Instruct werd een ASR van 98,08% bereikt (tegenover 91,35% voor de baseline), terwijl de kwaliteit van de generatie (gemeten via tinyBenchmarks) behouden bleef.
Toxicity Mitigation: In sequentiële sturing (layer-wise) presteerde CHaRS en CHaRS-PCT beter dan Linear-Act (een eerdere OT-methode) bij het verminderen van giftige generaties, zonder de perplexiteit of downstream-taken (zoals MMLU) te degraderen. CHaRS-PCT presteerde hier zelfs beter dan CHaRS, waarschijnlijk door de regularisatie-effecten van de thresholding.
Image Style Control: Bij het sturen van diffusion modellen (FLUX.1) voor stijlinductie (bijv. "cyberpunk"), bereikte CHaRS de gewenste stijl bij lagere sturingssterktes dan Linear-Act. Het behield bovendien een betere balans tussen stijlinductie en inhoudsbehoud (gemeten via CLIPScore).

Betekenis en Impact

Dit paper is significant omdat het een fundamentele beperking van bestaande sturingsmethoden oplost: de aanname van homogeniteit in de latent ruimte. Door concept-heterogeniteit expliciet te modelleren via Optimaal Transport en GMMs, biedt CHaRS een meer robuuste en nauwkeurige manier om het gedrag van generatieve modellen te controleren.

De methode toont aan dat het niet voldoende is om een enkele "richting" te vinden; in plaats daarvan moet men rekening houden met de complexe, geclusterde structuur van semantische concepten. Dit legt de basis voor toekomstige, meer geavanceerde interventies in generatieve modellen die de geometrie van de latent ruimte respecteren, wat essentieel is voor zowel veiligheidsgerichte toepassingen (zoals het voorkomen van jailbreaking) als creatieve controle (zoals stijltransformatie).

Concept Heterogeneity-aware Representation Steering

Het oude probleem: De "Eén Groot Duw"

De nieuwe oplossing: CHaRS (De Slimme Verkeersleider)

1. De Stad in Buurten verdelen (Klustering)

2. De Slimme Routeplanner (Optimal Transport)

3. De Vloeiende Overgang (Input-Afhangend)

Waarom is dit zo cool?

De Samenvatting

Probleemstelling

Methodologie: CHaRS

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction