How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions
Este estudio evalúa el rendimiento de cuatro modelos de lenguaje avanzados en preguntas de respuesta libre de los exámenes AP Physics 1 y 2, revelando que, aunque logran puntuaciones altas en problemas algebraicos estructurados, presentan deficiencias significativas en el razonamiento espacial, la interpretación visual y la integración conceptual.