Exploiting Expertise of Non-Expert and Diverse Agents in Social Bandit Learning: A Free Energy Approach

Dit paper introduceert een op vrije-energie gebaseerd algoritme voor sociaal bandietleren dat een agent in staat stelt om de expertise van andere agenten te schatten en hun gedrag effectief te benutten voor verbeterd individueel leren, zelfs in afwezigheid van beloningsinformatie of in aanwezigheid van niet-expert agenten, terwijl het logarithmische regret behoudt.

Erfan Mirzaei, Seyed Pooya Shariatpanahi, Alireza Tavakoli, Reshad Hosseini, Majid Nili Ahmadabadi

Gepubliceerd Fri, 13 Ma
📖 6 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het paper in eenvoudig Nederlands, met behulp van creatieve vergelijkingen om het concept begrijpelijk te maken.

De "Slimme Nieuwkomer" in een Drukte van Mensen

Stel je voor dat je in een groot, onbekend restaurant zit. Er zijn honderden gerechten op het menu, maar je weet niet welke lekker zijn. Je hebt alleen één ding: je eigen smaakpapillen. Als je alleen zou eten, zou je moeten proeven van alles om te ontdekken wat goed is. Dat kost veel tijd en geld (je "regret" of spijt).

Nu, in dit restaurant, zitten er ook honderden andere mensen aan tafels. Je ziet wat ze bestellen, maar je weet niet of ze genieten van hun eten of dat ze het vreselijk vinden. Misschien is de persoon naast je een fijnproever, misschien is de persoon aan de overkant gewoon willekeurig aan het bestellen, en misschien is iemand anders juist gek op dingen die jij niet lekker vindt.

Dit is precies het probleem dat deze wetenschappers oplossen. Ze hebben een slimme methode bedacht voor een AI-agent (de "Social Agent") om te leren van anderen, zonder te weten of die anderen slim of dom zijn, of zelfs of ze hetzelfde doel hebben.


Het Probleem: Niet iedereen is een expert

In de wereld van kunstmatige intelligentie (AI) leren computers meestal alleen door zelf te proberen en fouten te maken. Dit is traag. Mensen en dieren leren daarentegen vaak door naar elkaar te kijken (sociaal leren).

Maar hier zit een addertje onder het gras:

  1. Je weet niet wie de "meesterkok" is en wie de "leerling".
  2. Je weet niet of de ander hetzelfde doel heeft (misschien eet die persoon vegetarisch, terwijl jij vlees wilt).
  3. Soms zijn er mensen die expres het slechtste eten kiezen (de "tegenstander").

De meeste bestaande AI-methodes gaan er ten onrechte van uit dat iedereen hetzelfde eet of dat er een duidelijke meester is. Als dat niet zo is, raken ze in de war en maken ze veel fouten.


De Oplossing: De "Vrije Energie" Methode

De auteurs van dit paper hebben een nieuwe manier bedacht, gebaseerd op een concept uit de natuurkunde genaamd "Vrije Energie".

Laten we dit vergelijken met een kompas en een weegschaal.

De AI-agent (ons restaurantbezoekje) moet een keuze maken. Om te beslissen wie het beste te volgen is, gebruikt hij een speciale formule die drie dingen afweegt:

  1. Mijn eigen gevoel (De Referentie):
    De AI kijkt eerst naar wat hij zelf denkt dat lekker is, gebaseerd op wat hij al geproefd heeft. Dit is zijn "Thompson Sampling" beleid. Het is zijn eigen kompas.

    • Vergelijking: "Ik heb zelf al een paar keer geprobeerd, en dit gerecht lijkt me goed."
  2. Hoe slim is die ander? (De Vergelijking):
    De AI kijkt naar wat een ander doet. Maar hij vraagt zich af: "Lijkt wat die ander doet op wat ik zelf zou doen als ik slim was?"

    • Vergelijking: "Die persoon bestelt steeds dezelfde pizza. Ik denk dat hij daar dol op is. Maar past dat bij mijn eigen smaak? Als mijn eigen kompas zegt 'nee', dan is die pizza misschien niet voor mij."
  3. Hoe zeker is hij? (De Chaos-meting):
    Dit is het slimste deel. De AI meet de "onzekerheid" of "chaos" in het gedrag van de ander. Als iemand heel willekeurig bestelt (chaos), is dat niet nuttig. Als iemand heel consequent is (geen chaos), is dat nuttig.

    • Vergelijking: "Die persoon bestelt elke dag willekeurig iets anders. Dat is te chaotisch om van te leren. Maar die persoon daar bestelt elke dag hetzelfde, en dat lijkt een bewuste keuze."

De "Vrije Energie" Formule is eigenlijk een manier om te zeggen: "Ik wil het beste eten (beloning), maar ik wil niet te veel energie verbruiken door te proberen dingen die totaal niet bij mij passen of die te chaotisch zijn."

De AI zoekt dus de persoon (of zijn eigen strategie) die de minste "energie" kost om te volgen. Dat betekent: de beste balans tussen wat ik al weet en wat ik van anderen kan leren, zonder onnodig gedoe.


Waarom is dit zo cool?

Stel je voor dat je in een groepje zit met:

  • Een echte chef-kok (Expert).
  • Een leerling die het nog niet helemaal snapt (Niet-expert, maar relevant).
  • Iemand die willekeurig kiest (Random).
  • Iemand die expres het slechtste kiest (Tegenstander).

De oude methodes zouden vaak de chef-kok proberen na te bootsen, maar als de chef-kok niet aanwezig is, of als de chef-kok iets anders eet dan jij, dan raken ze in de war en maken ze veel fouten.

Deze nieuwe methode (SBL-FE) doet iets anders:

  • Als er een chef-kok is die hetzelfde eet als jij, volgt hij die chef-kok direct.
  • Als er geen chef-kok is, maar wel een leerling die iets vergelijkbaars eet, kijkt hij naar die leerling. Hij leert van de "niet-perfecte" expert.
  • Als er alleen maar gekken of tegenstanders zijn, negeert hij ze allemaal en vertrouwt hij op zijn eigen proeven.

Het is alsof de AI een slimme filter heeft die automatisch weet: "Oké, deze persoon is nuttig voor mij, die persoon niet, en die ander is gewoon gek."

De Resultaten

In hun tests hebben ze laten zien dat deze AI-agent:

  1. Snel leert: Hij maakt veel minder fouten dan AI's die alleen op zichzelf vertrouwen.
  2. Slim selecteert: Zelfs als er 90% "domme" of "verkeerde" mensen in de groep zitten, vindt hij de 10% die wel nuttig is.
  3. Robuust is: Het maakt niet uit of de andere mensen hun acties soms per ongeluk verkeerd doorgeven (ruis), de AI blijft goed presteren.

Conclusie

Dit paper is een beetje als het vinden van de perfecte manier om te leren in een drukke wereld. In plaats van blindelings te vertrouwen op "experts" (die misschien niet bestaan) of alles zelf te moeten uitvinden, leert deze AI om intelligent te kijken naar de chaos om hem heen.

Hij gebruikt een wiskundige balans (Vrije Energie) om te beslissen: "Wie van deze mensen is het meest vergelijkbaar met mij, en wie kan mij helpen om sneller de beste keuze te maken?"

Het is een stap in de richting van AI's die zich net zo natuurlijk gedragen als mensen in een menigte: ze kijken om zich heen, filteren de nuttige informatie en negeren de ruis, zodat ze sneller en slimmer worden.