HEARTS: Benchmarking LLM Reasoning on Health Time Series
El artículo presenta HEARTS, un nuevo benchmark unificado que evalúa las capacidades de razonamiento jerárquico de los modelos de lenguaje grandes (LLM) sobre series temporales de salud mediante 16 conjuntos de datos y 110 tareas, revelando que estos modelos actuales tienen un rendimiento limitado y dependen de heurísticas simples en comparación con los modelos especializados.