PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

Dit paper introduceert PRISM, een nieuw multimodaal framework voor conversatiestellingdetectie dat gebruikmaakt van het U-MStance-dataset om individuele gebruikerspersoonlijkheden te modelleren en zo de beperkingen van bestaande methoden op het gebied van pseudo-multimodaliteit en gebruikershomogeniteit op te lossen.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng Xu

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je door een enorm, drukke markt loopt. Overal staan kraampjes (de sociale media-berichten) en mensen schreeuwen hun mening over van alles: politici, auto's, cryptovaluta. Soms hebben ze een bordje met een foto, soms alleen maar een tekst.

Het probleem is dat computers, die proberen te begrijpen wat deze mensen eigenlijk bedoelen, vaak de verkeerde conclusies trekken. Ze kijken alleen naar het bordje dat de spreker vasthoudt, maar ze vergeten twee cruciale dingen:

  1. De foto's in de reacties: Vaak zijn de reacties van anderen ook vol met foto's en memes, maar oude computersystemen zagen die als "onzichtbaar".
  2. Wie de spreker is: Iedereen is uniek. Een grappige, cynische vent zegt iets anders dan een serieuze, zorgzame oma, zelfs als ze over hetzelfde onderwerp praten. Oude systemen behandelden iedereen als een identieke robot.

De auteurs van dit paper (PRISM) hebben een nieuwe manier bedacht om dit op te lossen. Hier is hoe het werkt, vertaald naar alledaags taal:

1. De Nieuwe Markt: U-MStance (De Dataset)

Eerst hebben ze een nieuwe, super-uitgebreide "markt" gecreëerd genaamd U-MStance.

  • Het oude probleem: Vroeger hadden datasets alleen foto's bij de eerste post, maar bij de reacties van andere mensen zagen ze alleen tekst. Alsof je in een gesprek alleen naar de eerste spreker kijkt die een foto vasthoudt, maar bij de rest van de menigte alleen naar hun lippen kijkt.
  • De oplossing: Deze nieuwe dataset bevat 40.000 reacties waar iedereen foto's en tekst gebruikt. Bovendien hebben ze een "dossier" bijgehouden van elke spreker: wat hebben ze in het verleden gezegd? Dit maakt het een eerlijke weergave van hoe online discussies echt werken.

2. De Nieuwe Detector: PRISM (Het Systeem)

Nu ze een goede markt hebben, hebben ze een slimme "detective" gebouwd die PRISM heet. Deze detective doet drie dingen die andere systemen niet doen:

A. Het "Persoonlijkheids-Dossier" (User Personas)

Stel je voor dat je een detective bent die een verdachte moet analyseren. Je kijkt niet alleen naar wat hij nu zegt, maar je leest ook zijn oude dagboeken.

  • PRISM doet precies dat. Het leest alle oude berichten van een gebruiker en maakt een persoonlijkheidsprofiel (gebaseerd op de "Big Five" persoonlijkheidstests: openheid, consciëntieusheid, extravertie, vriendelijkheid, neuroticisme).
  • De analogie: Als iemand bekend staat om zijn cynische humor (hoge score op 'neuroticisme' of 'openheid'), dan begrijpt PRISM dat als diegene een foto van een auto deelt met een grijns, hij misschien wel tegen die auto is, terwijl een andere persoon dat als een eerlijke lof zou zien. Het systeem weet dus wie er praat.

B. De "Vertaler van Foto's" (Cross-Modal Grounding)

Soms zeggen mensen niet wat ze bedoelen. Ze posten een foto van een brandend huis om te zeggen: "Ik vind dit beleid verschrikkelijk." Een domme computer denkt: "Oh, een huis, leuk!"

  • PRISM gebruikt een slimme techniek (Chain-of-Thought) om eerst de foto objectief te beschrijven ("een brandend huis") en daarna te vragen: "Wat betekent dit in deze specifieke discussie?"
  • De analogie: Het is alsof PRISM een vertaler heeft die niet alleen de woorden vertaalt, maar ook de toon en de bedoeling van de foto uitlegt. Het verbindt de foto met de tekst als twee puzzelstukjes die perfect in elkaar passen.

C. De "Twee-in-één Oefening" (Mutual Task Reinforcement)

PRISM leert op een slimme manier. Het doet twee dingen tegelijk:

  1. Het moet raden: "Wat is de mening?" (Stance Detection).
  2. Het moet raden: "Wat zou deze persoon als volgende reactie hebben gezegd?" (Response Generation).
  • De analogie: Het is alsof een student niet alleen een meerkeuzetoets doet, maar ook een opstel schrijft. Door te proberen een reactie te schrijven, leert het systeem de logica en de gevoeligheden van de discussie veel beter begrijpen, waardoor het de meerkeuzevraag (de mening) ook beter kan beantwoorden. De twee taken helpen elkaar.

Waarom is dit belangrijk?

In het verleden maakten computers vaak fouten omdat ze:

  • Foto's in reacties negeerden (alsof ze blind waren voor beeld).
  • Iedereen als hetzelfde zagen (alsof ze geen oog hadden voor persoonlijkheid).

PRISM is de eerste die echt kijkt naar wie er praat, wat ze laten zien, en hoe ze dat doen.

De Resultaten

Toen ze PRISM testten op hun nieuwe markt (de dataset), deed het het veel beter dan alle andere systemen.

  • Het kon sarcasme snappen (bijvoorbeeld: een foto van een auto met een brandend bandje, geplaatst door iemand die bekend staat om zijn kritiek).
  • Het bleef goed presteren, zelfs als het gesprek heel lang werd en complexer werd.

Kortom: PRISM is een slimme detective die niet alleen naar de woorden kijkt, maar ook naar de foto's, de persoonlijkheid van de spreker en de context van het gesprek, zodat hij eindelijk echt begrijpt wat mensen in de digitale wereld bedoelen.