FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs
Este artículo presenta FEM-Bench, un benchmark estructurado basado en tareas de mecánica computacional diseñado para evaluar rigurosamente la capacidad de los grandes modelos de lenguaje para generar código del método de los elementos finitos científicamente válido, revelando que incluso los modelos de vanguardia tienen dificultades para resolver consistentemente estos problemas no triviales.