SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts
Il paper introduce SmartBench, il primo dataset e benchmark per valutare le capacità dei grandi modelli linguistici (LLM) nel rilevare e gestire stati anomali e contesti comportamentali nelle case intelligenti, rivelando che i modelli attuali mostrano prestazioni insufficienti in questo compito critico.