Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je probeert te raden hoe iemand zich voelt door naar een video te kijken en naar de audio te luisteren. Soms is het gezicht duidelijk: de persoon lacht breed of ziet er verdrietig uit. Maar soms is het gezicht bedekt door een hand, of is de camera wazig. Op dat moment is de "visuele" informatie onbetrouwbaar.
Aan de andere kant: misschien is het gezicht perfect, maar is de persoon in de video aan het fluisteren of zit er veel achtergrondlawaai in. Dan is de "audio" informatie minder goed.
De meeste bestaande computersystemen voor emotieherkenning doen alsof ze een luie luisteraar zijn: ze geven aan de ogen en oren evenveel gewicht, ongeacht of de informatie goed of slecht is. Als het beeld wazig is, laat het systeem zich toch nog te veel door dat wazige beeld leiden, en dat maakt de voorspelling onnauwkeurig.
SAGE: De slimme regisseur
De auteurs van dit paper hebben een nieuw systeem bedacht dat SAGE heet. Je kunt SAGE zien als een slimme regisseur tijdens een live-uitzending.
In plaats van blindelings te vertrouwen op de camerabeelden (visueel) of de microfoon (audio), kijkt SAGE continu naar de kwaliteit van de signalen en past hij zijn strategie aan.
Hier is hoe het werkt, stap voor stap, met een paar simpele vergelijkingen:
1. Het probleem: De "Slecht Signaal" valkuil
Stel je voor dat je in een drukke bar zit en probeert een gesprek te volgen.
- Situatie A: Je vriend praat duidelijk, maar je ziet hem niet goed omdat het donker is.
- Situatie B: Je ziet hem heel duidelijk, maar hij fluistert en er is veel lawaai.
Een dom systeem zou zeggen: "Ik hoor iets en ik zie iets, dus ik tel het gewoon op." Maar als je in Situatie A luistert naar het fluisterende geluid (dat slecht is) en in Situatie B kijkt naar het donkere beeld (dat slecht is), krijg je een verkeerd idee van wat er gezegd wordt.
2. De oplossing: SAGE als de "Vertrouwens-meter"
SAGE lost dit op door een vertrouwens-meter te gebruiken die per seconde werkt.
- Stap 1: De Input. Het systeem neemt beelden en geluid op, net als een camera en microfoon.
- Stap 2: De Check. SAGE vraagt zich elke fractie van een seconde af: "Is het beeld op dit moment duidelijk? Is het geluid helder?"
- Als het gezicht bedekt is (bijvoorbeeld door een hand of een hoed), zegt SAGE: "Ik vertrouw het beeld op dit moment niet. Geef het minder gewicht."
- Als het geluid vol ruis zit, zegt SAGE: "Ik vertrouw het geluid niet. Luister vooral naar het beeld."
- Stap 3: De Balans. SAGE past de "volume-regelaars" dynamisch aan. Hij maakt het betrouwbare signaal harder en het onbetrouwbare signaal zachter. Dit noemen ze stadium-afhankelijke betrouwbaarheid. Het betekent dat het systeem weet dat de betrouwbaarheid verandert naarmate de interactie vordert.
3. Waarom werkt dit beter?
In de echte wereld zijn situaties nooit statisch. Iemand kan eerst heel duidelijk praten, dan weglopen, en dan weer terugkomen.
- Oude systemen: Proberen een vast patroon te leren. Ze worden vaak verward als de situatie verandert.
- SAGE: Gedraagt zich als een ervaren mens. Als je ziet dat iemand zijn gezicht bedekt, ga je automatisch meer naar zijn stem luisteren. Als je ziet dat hij zwaait met zijn handen, let je meer op de beweging. SAGE doet dit automatisch en heel snel.
Het resultaat
De onderzoekers hebben SAGE getest op een enorme database met echte video's van mensen in de natuur (niet in een studio). Ze hebben gekeken naar hoe goed het systeem de "stemming" (valence: blij vs. verdrietig) en de "opwinding" (arousal: rustig vs. opgewonden) kon voorspellen.
Het resultaat was dat SAGE consistent beter scoorde dan andere geavanceerde systemen. Het bewijst dat het niet nodig is om een super-complex systeem te bouwen dat alles tegelijk probeert te doen. In plaats daarvan is het veel effectiever om een systeem te bouwen dat weet wanneer het moet luisteren en wanneer het moet kijken.
Kortom:
SAGE is niet de slimste computer die alles weet, maar wel de slimste die weet wanneer hij iets moet vertrouwen. Door te weten welke sensor (oog of oor) op welk moment betrouwbaar is, kan hij de emoties van mensen veel stabieler en nauwkeuriger voorspellen, zelfs in chaotische situaties.