MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Dit paper introduceert MiniAppBench, een nieuw benchmark en evaluatiekader (MiniAppEval) dat de prestaties van grote taalmodellen meet bij het genereren van interactieve HTML-toepassingen, een domein waar bestaande benchmarks tekortschieten.

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een assistent hebt die niet alleen praat, maar ook bouwt.

Vroeger, als je een chatbot vroeg: "Hoe werkt de zwaartekracht?", kreeg je een lange, saaie tekst. Dat is als een kok die je alleen de receptuur van een taart geeft, maar de taart zelf niet bakt.

Dit nieuwe onderzoek, MINIAPPBENCH, kijkt naar de toekomst: wat als die assistent niet alleen de tekst geeft, maar direct een kleine, interactieve app (een "MiniApp") voor je bouwt? Je klikt erop, je sleept dingen, je ziet hoe een appel valt, en je kunt zelf de zwaartekracht veranderen. Het is alsof de kok niet alleen het recept geeft, maar direct een taart voor je bakt die je kunt proeven en aanpassen.

Hier is hoe dit onderzoek werkt, vertaald in begrijpelijke taal:

1. Het Probleem: De "Saaie" Test

Tot nu toe hebben we AI getest op basis van simpele code-opdrachten (zoals "schrijf een functie die twee getallen optelt"). Dat is als een chef-kok testen door te vragen of hij een ei kan bakken. Maar in de echte wereld wil je een heel diner, met de juiste smaken en presentatie.

Bestaande tests kijken alleen of de code "werkt" (geen fouten), maar niet of de app logisch is.

  • Voorbeeld: Als je vraagt om een simulatie van een week, en de app stopt na 5 dagen, dan is de code misschien foutloos, maar is de app dom. Een week heeft immers 7 dagen. De AI moet de "regels van de echte wereld" begrijpen, niet alleen de regels van de programmeertaal.

2. De Oplossing: MINIAPPBENCH (De Keuken)

De onderzoekers hebben een nieuwe "keuken" gebouwd genaamd MINIAPPBENCH.

  • De Ingrediënten: Ze hebben 500 echte vragen van mensen verzameld (zoals "maak een spelletje" of "simuleer een chemische reactie").
  • De Taak: De AI moet voor elke vraag een werkende, interactieve web-app maken.
  • De Regels: De app moet niet alleen mooi zijn, maar ook de wetten van de natuurkunde of de logica van het dagelijks leven volgen. Als je een appel laat vallen, moet hij naar beneden vallen, niet naar boven vliegen.

3. De Scheidsrechter: MINIAPPEVAL (De Proefcommissie)

Hoe meet je of zo'n app goed is? Je kunt niet zeggen: "Kijk, deze app lijkt op die andere app." Want er zijn duizenden manieren om een goede app te maken.

Daarom hebben ze MINIAPPEVAL bedacht. Dit is geen simpele checklist, maar een slimme robot-scheidsrechter die een menselijke tester nabootst:

  • Hij klikt en sleept: De robot opent de app in een virtuele browser en klikt op alles. Hij trekt aan schuifbalkjes, typt in velden en kijkt wat er gebeurt.
  • Hij kijkt in de motor: Hij kijkt niet alleen naar wat je ziet, maar ook naar de code erachter om te zien of de logica klopt.
  • Drie dimensies: Hij beoordeelt de app op drie punten:
    1. Intentie: Begreep de AI wat je wilde? (Wil je een taart of een soep?)
    2. Statisch: Is de app netjes gebouwd? (Zit er een deksel op de pan?)
    3. Dynamisch: Werkt het interactief? (Is de soep echt gaar en proefbaar?)

4. Wat Vonden Ze? (De Resultaten)

Toen ze de beste AI-modellen van vandaag de dag (zoals die van Google, OpenAI, etc.) deze test lieten doen, was het resultaat verrassend:

  • Het is nog heel moeilijk. Zelfs de slimste AI's halen maar ongeveer 45% van de tests goed. Ze maken vaak fouten in de "regels van de wereld". Ze bouwen soms een app die er mooi uitziet, maar waar je niets mee kunt doen, of waar de logica niet klopt.
  • De robot-scheidsrechter is eerlijk. De nieuwe methode (MINIAPPEVAL) oordeelt bijna precies hetzelfde als echte mensen. Dat is een groot vooruitgang, want tot nu toe was het heel moeilijk om automatisch te zeggen of een AI-app "goed" was.

Samenvattend

Dit onderzoek zegt: "AI moet niet alleen praten, maar ook doen."

We gaan van een wereld van statische tekst naar een wereld van interactieve ervaringen. Maar om daar te komen, moeten we AI's leren om niet alleen code te schrijven, maar om de regels van de echte wereld te begrijpen. De onderzoekers hebben nu de perfecte test (MINIAPPBENCH) en de perfecte scheidsrechter (MINIAPPEVAL) om te zien welke AI's klaar zijn voor deze nieuwe wereld en welke nog in de kleuterschool zitten.