AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents

Dit paper introduceert AgentA/B, een systeem dat autonome LLM-agenten gebruikt om schaalbare en snelle A/B-tests voor webapplicaties uit te voeren door menselijke gebruikersgedragingen te simuleren, waarmee de afhankelijkheid van grote hoeveelheden live menselijk verkeer wordt verminderd.

Yuxuan Lu, Ting-Yao Hsu, Hansu Gu, Limeng Cui, Yaochen Xie, William Headden, Bingsheng Yao, Akash Veeragouni, Jiapeng Liu, Sreyashi Nag, Jessie Wang, Dakuo Wang

Gepubliceerd Thu, 12 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Agent A/B: De Digitale Proefkonijnen voor je Website

Stel je voor dat je een nieuw recept voor je favoriete taart hebt bedacht. Je wilt weten of het lekkerder is dan je oude recept, maar je hebt geen zin om 1.000 vrienden uit te nodigen om het te proeven. Dat kost tijd, geld en je vrienden zijn misschien niet eens beschikbaar. Wat doe je dan? Je zou misschien een paar proefkonijnen kunnen gebruiken, maar die eten misschien niet wat jij eet.

Dit is precies het probleem dat webontwerpers hebben met A/B-testen. Ze willen weten of een nieuwe knop, een andere kleur of een nieuw menu beter werkt dan het oude. Maar om dit echt te weten, moeten ze duizenden echte mensen op hun website laten rondlopen. Dat is duur, langzaam en soms is er gewoon niet genoeg "verkeersdrukte" om een goed antwoord te krijgen.

In dit artikel presenteren de auteurs Agent A/B. Dit is een slim systeem dat AI-agenten (virtuele mensen) gebruikt om in plaats van echte mensen op een website te klikken.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Digitale Proefkonijnen" (De Agenten)

In plaats van echte mensen, creëert het systeem 1.000 digitale personages. Denk aan ze als een cast van acteurs die elk een heel specifiek script hebben.

  • De ene "acteur" is een 35-jarige freelance ontwerper die houdt van dure gadgets.
  • De andere is een 60-jarige grootmoeder die op zoek is naar een goedkope koffiezetapparaat.
  • Ze hebben allemaal een persoonlijkheid, een budget en een doel (bijvoorbeeld: "Ik wil een Bluetooth-luidspreker vinden voor onder de 30 dollar").

2. De "Twee Keukens" (De A/B-test)

Stel je voor dat je twee versies van je website hebt:

  • Versie A (De oude): Een filtermenu met 50 opties, wat erg rommelig is.
  • Versie B (De nieuwe): Een slim filter dat alleen de 10 beste opties laat zien.

Het systeem stuurt 500 van zijn digitale personages naar Versie A en de andere 500 naar Versie B. Ze gaan allemaal "winkelen" op de echte Amazon-website, precies zoals een mens dat zou doen. Ze zoeken, klikken, filteren en kopen.

3. De "Snelkookpan" (Snelheid en Kosten)

Normaal duurt het maanden om genoeg echte mensen te vinden om een test te doen, en het kost duizenden euro's.
Met Agent A/B gebeurt dit in een paar uur.

  • De analogie: Het is alsof je in plaats van een week lang te koken voor 1.000 gasten, een super-snelle magnetron hebt die in 10 minuten 1.000 proefporties maakt. Je ziet direct of het nieuwe recept (het nieuwe ontwerp) beter werkt, zonder dat je je keuken (je website) hoeft te verstoren voor echte klanten.

4. Wat hebben ze ontdekt? (Het Resultaat)

De auteurs hebben dit getest op Amazon. Ze veranderden het filtermenu (van veel opties naar minder, slimme opties).

  • Het verrassende resultaat: De digitale agenten kochten meer in de nieuwe, versimpelde versie dan in de oude.
  • De check: Ze keken ook naar wat 2 miljoen echte mensen deden in een parallelle test. Het bleek dat de digitale agenten precies dezelfde richting opgingen als de echte mensen! De agenten voorspelden dus correct dat de nieuwe versie beter zou werken.

Waarom is dit zo cool?

  • Risicovrij: Je kunt een slecht ontwerp testen op je digitale proefkonijnen. Als ze er niet van houden, weet je dat het ook bij echte mensen niet werkt, en hoef je het niet te lanceren.
  • Inclusief: Je kunt specifiek agenten maken voor groepen die moeilijk te vinden zijn, zoals ouderen of mensen met een lage digitale geletterdheid, om te zien of je ontwerp voor hen werkt.
  • Snel: Je krijgt feedback voordat je überhaupt een echte klant hebt lastiggevallen.

Kortom:
Agent A/B is als een "simulatie-spoorbaan" voor je website. Je kunt je nieuwe ideeën eerst laten racen met duizenden digitale coureurs. Als ze snel en veilig aankomen, pas je het pas echt toe voor de echte mensen. Het bespaart tijd, geld en voorkomt dat je klanten teleurstelt met een slecht ontwerp.