HEARTS: Benchmarking LLM Reasoning on Health Time Series
Dit paper introduceert HEARTS, een unificerend benchmark voor het evalueren van het hiërarchische redeneervermogen van grote taalmodellen op diverse gezondheids-tijdsreeksen, en toont aan dat deze modellen momenteel aanzienlijk onderpresteren ten opzichte van gespecialiseerde modellen en worstelen met complexe temporele redenering.