Each language version is independently generated for its own context, not a direct translation.
Samenvatting: Hoe Team LEYA de twijfel van mensen "hoort" en "ziet"
Stel je voor dat je met iemand aan het praten bent. Ze zeggen: "Ja, ik wil graag beginnen met sporten," maar hun stem trilt een beetje, ze kijken onzeker en hun lichaamstaal zegt: "Ik weet het niet echt." Ze zijn ambivalent of heseitant. Ze zijn in tweestrijd.
Het herkennen van deze subtiele twijfel in video's is een enorm moeilijke taak voor computers. Mensen doen dit intuïtief, maar voor een computer is het alsof je probeert een raadsel op te lossen terwijl je een doos vol losse puzzelstukjes hebt.
Team LEYA uit Rusland heeft een slimme oplossing bedacht voor een grote wedstrijd (de 10e ABAW-competitie) om dit probleem op te lossen. Hier is hoe ze het deden, vertaald in alledaags taal:
1. Vier verschillende "sensors" (De vier zintuigen)
In plaats van alleen naar het gezicht van iemand te kijken (zoals veel andere teams deden), liet Team LEYA hun computer kijken naar vier verschillende dingen tegelijk, alsof ze een team van vier detectives hebben:
- De Scène-detective (De achtergrond): Deze kijkt niet naar het gezicht, maar naar wat er om de persoon heen gebeurt. Beweegt de camera? Verandert de omgeving? Soms zegt de sfeer van de kamer meer over onzekerheid dan het gezicht zelf.
- De Gezichtsdetective (De emoties): Deze kijkt specifiek naar de micro-expressies op het gezicht. Is er een frons? Een snelle glimlach die niet klopt?
- De Oordetective (De stem): Deze luistert naar de toonhoogte, het tempo en de trilling in de stem. Zegt de stem "ja", maar klinkt het als "nee"?
- De Taaldetective (De woorden): Deze leest precies wat er gezegd wordt. Welke woorden worden gebruikt? Is de zin vol met twijfelwoorden?
2. Het "Vertaalbureau" (Unimodale modellen)
Elke detective werkt eerst apart. Ze nemen hun eigen stukje informatie en vertalen het naar een simpele, samenvattende code.
- De gezichtsdetectie pakt duizenden beelden en maakt er één statistisch gemiddelde van (bijvoorbeeld: "gemiddeld zag hij er 60% onzeker uit").
- De oordetectie luistert naar de hele clip en maakt er één "gevoelscode" van.
- De taaldetectie pakt de tekst en maakt er een samenvatting van.
3. De "Super-Detective" (Multimodale Fusie)
Nu komen alle vier de detectives bij elkaar in een vergaderzaal. Dit is het slimste deel van hun systeem.
Stel je voor dat de Taaldetective zegt: "Hij zegt 'ja', dat is duidelijk!"
Maar de Gezichtsdetectie fluistert: "Hij kijkt echter naar de grond."
En de Oordetectie voegt toe: "En zijn stem trilt."
Een simpele computer zou misschien alleen naar de woorden kijken en denken: "Alles goed!". Maar Team LEYA's systeem is een Super-Detective die alle tegenstrijdigheden ziet. Het systeem is speciaal getraind om te begrijpen dat twijfel vaak ontstaat wanneer de woorden niet matchen met de stem of het gezicht.
Ze gebruiken een slimme techniek (genaamd "prototype-augmented fusion"). Je kunt dit vergelijken met een mestafdeling die niet alleen naar de huidige situatie kijkt, maar ook naar een "ideaal plaatje" van hoe twijfel eruit ziet. Als de combinatie van stem, gezicht en tekst lijkt op dat ideale plaatje van twijfel, dan slaat het alarm.
4. Het "Team van Vijf" (Ensemble)
Om zeker te zijn dat ze niet toevallig geluk hadden, lieten ze vijf van deze Super-Detectives tegelijk werken.
Stel je voor dat je een moeilijke wiskundetaak hebt. Als je het aan één persoon vraagt, kan die een fout maken. Maar als je het aan vijf slimme mensen vraagt en hun antwoorden gemiddeld, krijg je bijna altijd het juiste antwoord. Team LEYA deed precies dit: ze lieten vijf versies van hun model werken en namen het gemiddelde resultaat.
Wat was het resultaat?
- Alleen kijken: Als je alleen naar de tekst kijkt, heb je ongeveer 70% kans om het goed te hebben.
- Alleen kijken naar het gezicht: Dat werkt veel slechter (ongeveer 62%).
- Samenwerken: Toen ze alle vier de detectives samenwerkten, steeg het succes naar 83% tijdens de test.
- De finale: In de echte wedstrijd, waar de data nog onbekend was, wonnen ze met 71,43%.
De grote les
De belangrijkste ontdekking van Team LEYA is dit: Twijfel is een complex gevoel. Je kunt het niet vinden door alleen naar één ding te kijken. Je moet kijken naar wat mensen zeggen, hoe ze het zeggen, hoe ze eruitzien en wat er om hen heen gebeurt. Alleen door al deze signalen samen te voegen, kan een computer echt begrijpen of iemand twijfelt of niet.
Kortom: Ze hebben een computer gebouwd die niet alleen luistert, maar ook echt begrijpt wat er in het hoofd van de ander omgaat.
Ontvang papers zoals deze in je inbox
Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.