SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts

Dit paper introduceert SmartBench, het eerste dataset en benchmark voor het evalueren van de prestaties van grote taalmodellen bij het detecteren van abnormale toestanden in slimme huishoudens, waarbij de resultaten aantonen dat huidige state-of-the-art modellen hierin nog aanzienlijk tekortschieten.

Qingsong Zou, Zhi Yan, Zhiyao Xu, Kuofeng Gao, Jingyu Xiao, Yong Jiang

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

SmartBench: De "Rookmelder" voor Slimme Huizen die nog moet leren

Stel je voor dat je een zeer slimme butler hebt, een kunstmatige intelligentie (een LLM), die je huis bewaakt. Deze butler kan praten, je luisteren en zelfs je lampen aansturen als je zegt: "Maak het gezellig." Maar er is een groot probleem: deze butler is nog niet goed in het zien van gevaar of raar gedrag in je huis.

Dit onderzoek, genaamd SmartBench, is als een strenge examinator die deze slimme butlers op de proef stelt. Hier is wat ze hebben ontdekt, verteld in simpele taal:

1. Het Probleem: De "Blinde Vlek" van de AI

Tot nu toe zijn slimme huizen vooral gericht op het uitvoeren van commando's ("Zet de thermostaat op 20 graden"). Maar een echt slim huis moet ook kunnen zeggen: "Hee, wacht even! De airco staat aan terwijl de verwarming ook aan staat, en de deur staat open terwijl je op vakantie bent!"

Dit noemen we anomalieën (raar gedrag). De onderzoekers wilden weten: Kunnen deze super-intelligente computers dit soort gevaarlijke situaties zien en uitleggen waarom het raar is?

2. De Oplossing: SmartBench (De "Valkuilen" Test)

Om dit te testen, hebben de onderzoekers SmartBench gemaakt. Dit is een enorme verzameling van testcases, alsof ze een "trainingsveld" met valkuilen hebben gebouwd.

  • Het is een simulatie: Ze hebben geen echte huizen gebruikt (dat is te duur en gevaarlijk), maar een virtuele wereld met 62 verschillende apparaten (van de koelkast tot de slimme sloten).
  • Twee soorten tests:
    1. De Foto-test (Context-onafhankelijk): Je geeft de AI een foto van de staat van alle apparaten op één moment. Voorbeeld: De airco is aan, de verwarming is aan. Is dit raar? Ja!
    2. De Videotest (Context-afhankelijk): Je geeft de AI een video van wat er de hele dag gebeurd is. Voorbeeld: De bewoner vertrekt, maar de kraan in de keuken blijft urenlang open staan. Is dit raar? Ja!

In totaal hebben ze 4.400 scenarios gemaakt, waarvan de helft normaal en de helft met opzet "gebroken" of gevaarlijk.

3. De Resultaten: De AI faalt op het examen

De onderzoekers hebben 13 van de slimste AI-modellen ter wereld (zoals GPT-5, Claude, Gemini) op deze test gezet. Het nieuws is niet goed:

  • Ze zien het gevaar niet: De meeste modellen halen een onvoldoende. Ze missen vaak de gevaarlijke situaties.
  • Ze zijn te bang (of te lui): Soms denken ze dat er iets mis is als er niets aan de hand is (veel vals alarm), of ze zien een echt gevaar over het hoofd.
  • Ze kunnen het niet uitleggen: Zelfs als ze toevallig zeggen "Er is iets mis", kunnen ze vaak niet goed uitleggen waarom. Het is alsof ze zeggen: "Ik heb een slecht gevoel," zonder te kunnen zeggen: "De kraan loopt leeg."

Een grappige vergelijking:
Stel je voor dat je een auto hebt die perfect kan rijden (de AI die commando's uitvoert), maar die geen remmen heeft en geen spiegels. Als er een kind voor de auto loopt (een anomalie), ziet de auto het niet, of denkt dat het een schaduw is. SmartBench laat zien dat onze "slimme" huizen nog steeds blind zijn voor gevaar.

4. Waarom is dit zo moeilijk?

De onderzoekers ontdekten een paar redenen waarom deze slimme computers het niet kunnen:

  • Te veel informatie: Als je een video van een hele dag geeft, "verdwijnt" het belangrijke detail in het midden van de tekst. De AI vergeet de kraan die open stond, omdat ze te veel andere dingen hebben gelezen.
  • Grootte helpt niet altijd: Je zou denken dat een grotere, slimmere computer het beter doet. Dat is deels waar, maar zelfs de grootste modellen (die miljoenen keren slimmer zijn dan een mens) halen hier nog geen 80% goed. Ze missen de "gezonde verstand" logica.
  • Samenhang is lastig: De AI ziet de airco en de verwarming als twee losse dingen. Het kost hen moeite om te begrijpen dat ze samen een probleem vormen (energieverspilling of brandgevaar).

5. Wat betekent dit voor de toekomst?

De boodschap is duidelijk: We zijn nog niet klaar om AI volledig te vertrouwen met de veiligheid van ons huis.

Als we straks een slimme butler willen die ons huis echt veilig houdt, moeten we eerst veel beter leren hoe deze AI's "gevaar" begrijpen. SmartBench is de eerste stap om dit te meten en te verbeteren. Het is als een rijexamen voor AI's: momenteel halen ze allemaal het examen niet, en dat is een goed teken, want het betekent dat we nog moeten werken voordat we ze echt de sleutels van het huis geven.

Kortom: Onze slimme huizen kunnen momenteel goed praten en luisteren, maar ze zijn nog te dom om te zien als er brand dreigt of als de inbreker de deur openzet. SmartBench is de test die dit hardop zegt.