HEARTS: Benchmarking LLM Reasoning on Health Time Series
Le papier présente HEARTS, un benchmark unifié évaluant les capacités de raisonnement hiérarchique des grands modèles de langage sur 16 jeux de données de santé réels, révélant que ces modèles sous-performent les modèles spécialisés et peinent à gérer la complexité temporelle malgré leur échelle.