FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs
Este artigo apresenta o FEM-Bench, um benchmark estruturado baseado em tarefas de mecânica computacional projetado para avaliar rigorosamente a capacidade de grandes modelos de linguagem de gerar código de método de elementos finitos cientificamente válido, revelando que mesmo os modelos de última geração lutam para resolver consistentemente esses problemas não triviais.