From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je met een zeer slimme robot praat die alles kan, maar soms klinkt hij als een saaie, koude computer. Hij kan een verhaal vertellen of een deal sluiten, maar hij mist die menselijke "warmte", empathie of de juiste toon. Hij zegt misschien "Dat is jammer," terwijl hij eigenlijk zou moeten zeggen: "Oh nee, dat klinkt echt zwaar, ik hoor je."

Deze paper, getiteld "Van Passief naar Persuasief", beschrijft een nieuwe manier om die robot niet alleen slim, maar ook emotioneel slimmer te maken.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Zwarte Doos"

Tot nu toe was het moeilijk om een AI (zoals LLaMA) te leren hoe hij zich moet gedragen in gevoelige situaties, zoals troosten iemand of onderhandelen over de prijs van een tweedehands stoel.

De oude manier: Je probeerde de robot te trainen met duizenden voorbeelden (zoals een schoolmeester die eindeloos oefent) of je gaf hem een simpele instructie ("Wees aardig").
Het nadeel: Dat kostte veel tijd, energie, en de robot werd soms te star of deed alsof hij aardig was zonder het echt te voelen. Het was alsof je iemand probeert te leren zwemmen door hem een boek te laten lezen, in plaats van hem in het water te gooien.

2. De Oplossing: De "Emotie-Regelaar"

De auteurs hebben een nieuwe techniek bedacht, genaamd STAR. Ze noemen het geen "hertraining", maar eerder een tuning van de interne instellingen.

Stel je de AI voor als een enorm groot orgel met duizenden pijpen (de lagen en tokens).

De oude methode: Je probeerde het geluid van het hele orgel te veranderen door de hele zaal te verbouwen.
De nieuwe methode (STAR): Ze kijken precies welke één pijp het geluid veroorzaakt dat klinkt als "verdriet" of "onderhandelen". Vervolgens sturen ze een klein elektrisch signaal (een vector) naar alleen die specifieke pijp op het moment dat het belangrijk is.

3. Hoe werkt het? (De Twee Stappen)

Stap 1: De "Detective" (Attribution Patching)
De onderzoekers spelen een spelletje "Wat als?". Ze laten de AI een zin afmaken op twee manieren:

De juiste, empathische manier ("Dat klinkt verschrikkelijk...").
De verkeerde, koude manier ("Dat is jammer.").

Ze kijken dan in de "hersenen" van de AI om te zien: Welke schakelaar ging om op het moment dat de AI de empathische zin koos? Ze vinden precies welke laag in het netwerk verantwoordelijk is voor dat menselijke gevoel. Het is alsof ze een kaart maken van waar de "empathie-knop" zit.

Stap 2: De "Kleurstof" (Contrastive Steering)
Nu ze weten waar de knop zit, maken ze een "emotie-vector". Dit is een soort recept of kleurstof die het verschil aangeeft tussen een koude en een warme reactie.

Ze voegen dit recept toe aan de AI terwijl hij praat.
De slimme truc: Ze doen dit niet voor de hele zin, maar alleen aan het einde van de zin (de laatste paar woorden). Waarom? Omdat het einde van een zin vaak de "punchline" is waar de emotie of de deal wordt gesloten. Het is alsof je een schilderij niet opnieuw schildert, maar alleen de laatste kwaststreek aanpast om het hele plaatje warmer te laten lijken.

4. Wat leverde het op? (De Resultaten)

De onderzoekers testten dit in twee situaties:

Situatie A: Troostend gesprek (Emotionele Support)
- Voorheen: De AI zei: "Ik begrijp dat je verdrietig bent." (Koud, afstandelijk).
- Nu: De AI zegt: "Oh, dat klinkt echt zwaar. Ik ben hier voor je." (Warm, gebruikt meer "ik" en "jij", klinkt menselijker).
- Vergelijking: Het is alsof je een robot die eerder alleen feiten gaf, nu een hart hebt gegeven zonder zijn hoofd te vervangen.
Situatie B: Onderhandelen (Craigslist)
- Voorheen: De AI was ofwel te agressief of te zwak.
- Nu: De AI onderhandelt netjes, gebruikt beleefde taal ("Zou het misschien mogelijk zijn...?"), maar blijft toch zijn doel bereiken. Hij wordt een tactische diplomaat in plaats van een ruziemakende robot.

5. Waarom is dit belangrijk?

Deze methode is als een chirurgische ingreep in plaats van een amputatie.

Je hoeft de hele AI niet opnieuw te leren (wat jaren duurt).
Je verandert niet zijn gehele persoonlijkheid, maar je geeft hem een specifieke "hulpmiddel" voor een specifieke situatie.
Het werkt snel, is goedkoop en je kunt precies zien wat je doet (het is "interpreteerbaar").

Kortom:
De onderzoekers hebben ontdekt hoe je een AI kunt "sturen" door op het juiste moment, op de juiste plek in zijn brein een klein duwtje te geven. Hierdoor wordt de AI niet alleen slimmer, maar ook menselijker, warmer en beter in het sluiten van deals, zonder dat je hem hoeft te herschrijven. Het is de overstap van een passieve machine naar een overtuigende gesprekspartner.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLM's) hebben uitstekende conversatievaardigheden ontwikkeld, maar worstelen nog steeds met het genereren van nuance-rijke, menselijke emotionele expressie. Hoewel bestaande uitlijningstechnieken zoals Reinforcement Learning from Human Feedback (RLHF) zorgen voor basisveiligheid en beleefdheid, zijn ze beperkt in situaties die een verfijnde controle vereisen over hogere conversatiestrategieën (zoals empathie, zelfopenbaring en onderhandeling).

Beperkingen van huidige methoden: RLHF is duur om te schalen, vatbaar voor "reward hacking" (het optimaliseren van beloningssignalen in plaats van echte waarden), en mist interpretatiebaarheid.
Huidige stuurtechnieken: Bestaande methoden voor het sturen van activaties (steering vectors) worden vaak globaal toegepast of heuristisch gekozen, wat leidt tot gebrek aan contextgevoeligheid en inconsistentie in meer-draads gesprekken.
Doel: Er is behoefte aan een methode die LLM's in staat stelt om contextgevoelige emotionele en strategische gedragingen te vertonen zonder het model opnieuw te hoeven trainen.

Methodologie: Het STAR-framework

De auteurs stellen STAR (Steering via Attribution and Representation) voor, een tweestaps-framework voor sturing op inferentietijd (tijdens het genereren van tekst). Dit framework combineert causale analyse met contrastieve activatiebewerking.

1. Stap 1: Attributie-patching voor causale lokalisatie
Om te bepalen waar en wanneer in het model specifieke gedragskenmerken (zoals empathie of onderhandelingsstrategie) ontstaan, gebruiken de auteurs attributie-patching.

Ze creëren diagnostische prompts met twee varianten: een "gealigneerde" versie (bijv. empathisch) en een "misgealigneerde" versie (bijv. neutraal of onverschillig).
Ze berekenen het verschil in logit-kansen tussen deze versies.
Vervolgens worden de verborgen toestanden (hidden states) van de misgealigneerde uitvoer vervangen door die van de gealigneerde uitvoer per laag en tokenpositie.
Resultaat: Dit levert een warmtekaart op die aangeeft welke lagen en tokenposities causaal invloed hebben op het gewenste gedrag. De studie identificeerde dat interventies het meest effectief zijn op specifieke lagen (bijv. Laag 2 voor emotionele ondersteuning, Laag 3 voor zelfopenbaring) en voornamelijk op de laatste $k$ tokens van een antwoord.

2. Stap 2: Constructie en toepassing van stuurvectoren
Op basis van de identificatie in Stap 1 worden stuurvectoren ( $V_{steer}$ ) gegenereerd.

Contrastieve Vectoren: De vectoren worden berekend als het verschil tussen de gemiddelde verborgen toestanden van positieve voorbeelden (bijv. steunend) en negatieve voorbeelden (bijv. neutraal) binnen een specifieke taak.
$V_{steer} = \mu_{positive} - \mu_{neutral}$
Lokale Interventie: In tegenstelling tot eerdere methoden die vectoren over de hele tekst toepassen, injecteert STAR de vector $V_{steer}$ (vermenigvuldigd met een schalingsfactor $\alpha$ ) alleen in de laatste $k$ tokens van de gegenereerde respons.
$h' = h_t + \alpha V_{steer}, \quad \text{voor } t \in \{T-k+1, \dots, T\}$
Dit zorgt voor een gerichte aanpassing van de emotionele toon of strategie zonder de coherentie van de rest van de zin te verstoren.

Experimentele Opzet

De methode werd getest op twee domeinen met verschillende affectieve competenties:

Emotionele Ondersteuning: Gebruikmakend van de BOLT SMS-dataset (multi-turn chats). Taken omvatten het bieden van steun en het tonen van zelfopenbaring.
Strategische Onderhandeling: Gebruikmakend van de Craigslist Bargain dataset. Taken focussen op onderhandelingsstijl, beleefdheid en het bereiken van gunstige prijzen.

De evaluatie omvatte zowel single-turn (directe respons) als multi-turn (langdurige dialoog) settings, vergeleken met een ongestuurde baseline en prompt-priming (system messages).

Belangrijkste Resultaten

De resultaten tonen aan dat STAR significant beter presteert dan globale stuurmethoden en prompt-engineering:

Emotionele Nuance: Gestuurde antwoorden vertoonden een significante toename in positieve sentimenten (vreugde, vertrouwen) en het gebruik van eerste-persoonsvoornaamwoorden (bijv. "ik", "wij"), wat wijst op grotere persoonlijke betrokkenheid.
Empathie en Ondersteuning: Er was een toename in empathische woorden en beleefdhedsstrategieën (zoals excuses aanbieden en indirecte verzoeken).
Onderhandelingsprestaties: In onderhandelingsscenario's leidde sturing tot:
- Hogere semantische coherentie.
- Een hogere akkoord-ratio en betere prijsverbetering (gunstigere deals voor de koper).
- Meer gebruik van strategische beleefdheid (dankbetuigingen, verzachtingen) en minder directheid of afwijzing.
Generalisatie: Vectoren die werden afgeleid van kleine diagnostische taken generaliseerden effectief naar complexe, multi-turn dialogen zonder de vloeiheid (perplexity) te schaden.
Interpretatiebaarheid: De methode maakt het mogelijk om te zien waar in het model het gedrag wordt gegenereerd (bijv. specifieke lagen), wat inzicht geeft in de interne mechanismen van de LLM.

Bijdragen en Relevantie

De paper levert de volgende belangrijkste bijdragen:

Gerichte Stuurframework: Een nieuw framework (STAR) dat causale attributie combineert met contrastieve activatie-engineering voor precieze, interpreteerbare controle over LLM-gedrag.
Granulariteit en Doel: De auteurs karakteriseren uitlijning langs twee dimensies: granulariteit (globaal vs. lokaal) en doel (correctieve uitlijning vs. versterking van expressie). Ze tonen aan dat lokale interventies op de laatste tokens superieur zijn voor behoud van coherentie.
Efficiëntie: De methode vereist geen hertraining (fine-tuning) van het model, wat het een lichtgewicht en kosteneffectief alternatief maakt voor RLHF.
Toepasbaarheid: Het bewijst dat het mogelijk is om LLM's te sturen naar zowel therapeutische uitlijning (empathie) als strategische expressie (onderhandeling) met dezelfde onderliggende techniek.

Conclusie:
Dit werk toont aan dat het "sturen" van interne activaties van LLM's op specifieke momenten in de generatieproces een krachtige manier is om menselijke emotionele nuance en strategisch inzicht in AI-gesprekken te introduceren. Het biedt een pad naar meer betrouwbare, empathische en strategisch vaardige AI-systemen zonder de nadelen van zware hertraining.

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

1. Het Probleem: De "Zwarte Doos"

2. De Oplossing: De "Emotie-Regelaar"

3. Hoe werkt het? (De Twee Stappen)

4. Wat leverde het op? (De Resultaten)

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie: Het STAR-framework

Experimentele Opzet

Belangrijkste Resultaten

Bijdragen en Relevantie

Meer zoals dit

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis