How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um professor de física e, em vez de corrigir as provas dos seus alunos, você convida quatro "super-inteligências" de computador (Inteligências Artificiais) para fazerem a mesma prova. A pergunta é: elas conseguem pensar como um humano ou apenas "chutar" as respostas certas?

Este artigo científico é como um grande experimento de laboratório onde os autores testaram quatro IAs famosas (ChatGPT, Gemini, Claude e DeepSeek) em questões reais de física do ensino médio americano (os exames AP Physics), que vão de 2015 a 2025.

Aqui está o resumo da história, explicado de forma simples:

1. O Cenário: Uma Prova de Física "Real"

Os pesquisadores pegaram questões abertas (onde o aluno precisa escrever a resposta, não apenas marcar A, B, C ou D) que exigem cálculos, desenhos e explicações. Eles pediram para as IAs agirem como se fossem estudantes reais, sem ajuda extra. Depois, três professores de física experientes corrigiram as respostas das IAs usando a mesma régua que usariam para corrigir um aluno humano.

2. O Resultado Geral: Elas são "Boas Alunas", mas não "Geniais"

De modo geral, as IAs foram muito bem! Elas tiraram notas médias entre 82% e 92%.

A Analogia: Imagine que você tem quatro alunos que conseguem resolver perfeitamente equações matemáticas e aplicar fórmulas. Se a prova fosse apenas "resolver X = Y", eles tirariam nota 10. Elas são ótimas em seguir regras e fazer contas.

3. O Grande Problema: A "Cegueira" Visual e Espacial

Aqui é onde a coisa fica interessante. As IAs falharam feio em tarefas que exigem ver e imaginar coisas no espaço 3D.

O que elas erraram:
- Interpretar desenhos: Se o desenho mostrava um bloco escorregando em uma rampa, a IA às vezes não entendia a inclinação ou a direção do movimento. Era como se elas olhassem para um mapa e não soubessem para onde o norte aponta.
- Gráficos: Elas tinham dificuldade em ler números diretamente de um gráfico ou desenhar um gráfico correto. Era como pedir para alguém desenhar um gráfico de temperatura baseado em uma foto de um termômetro, e a IA desenhava algo totalmente fora da realidade.
- Regra da Mão Direita: Em física, usamos a mão direita para imaginar como campos magnéticos funcionam no espaço 3D. As IAs frequentemente "esqueciam" de usar a mão direita corretamente, confundindo para onde a força empurrava.
- Circuitos Elétricos: Elas se confundiam ao dizer se fios estavam ligados em série ou paralelo, como se não conseguissem "enxergar" o caminho da eletricidade.

4. Quem foi o melhor aluno?

No Física 1 (Mecânica básica): Foi um empate técnico. As quatro IAs oscilavam muito. Em um ano, uma era a melhor; no ano seguinte, outra tomava o lugar. Não havia um "campeão" claro.
No Física 2 (Tópicos mais avançados como eletricidade e óptica): Aqui, o Gemini e o DeepSeek se destacaram. Eles foram mais consistentes e tiraram notas melhores do que o Claude e o ChatGPT.
- A Analogia: Pense no ChatGPT como um aluno que às vezes acerta tudo por sorte, mas em outros dias esquece o caderno em casa (muito instável). Já o DeepSeek e o Gemini são como alunos que estudam todo dia e têm um desempenho mais estável, mesmo quando a prova é difícil.

5. O Veredito Final: O que aprendemos?

O estudo conclui que as IAs atuais são excelentes assistentes para cálculos e revisão de fórmulas, mas ainda não são substitutas para o raciocínio humano em situações complexas que exigem visualização.

Para Professores: Podem usar as IAs para ajudar os alunos a praticar contas, mas devem alertar: "Não confie na IA para desenhar gráficos ou interpretar diagramas complexos, pois ela pode alucinar e inventar fatos."
Para os Desenvolvedores de IA: O próximo passo não é fazer a IA calcular mais rápido, mas sim ensiná-la a "ver" melhor os desenhos e a entender o espaço 3D.

Em resumo: As IAs são como calculadoras superpoderosas que conseguem escrever textos lindos, mas ainda precisam de um professor humano para garantir que elas não estão "sonhando" com a física enquanto resolvem os problemas. Elas são ferramentas incríveis, mas ainda não são os mestres da matéria.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions", apresentado em português.

Título do Estudo

Quão Bem os Sistemas de IA Resolvem Física AP? Uma Avaliação Comparativa de Modelos de Linguagem Grandes em Questões de Resposta Aberta Baseadas em Álgebra.

1. Problema e Motivação

O avanço rápido dos Modelos de Linguagem Grandes (LLMs) gerou interesse em seu uso na educação em STEM (Ciência, Tecnologia, Engenharia e Matemática). No entanto, existe uma lacuna na literatura quanto a uma avaliação focada e granular do desempenho desses modelos em problemas de física complexos, multifacetados e de resposta aberta (FRQs - Free Response Questions).

O Desafio: As provas de Física AP (Physics 1 e Physics 2) exigem não apenas cálculos quantitativos, mas também explicações qualitativas, design experimental, interpretação de diagramas e gráficos, e raciocínio espacial tridimensional.
A Questão de Pesquisa: Até que ponto os LLMs atuais conseguem resolver esses problemas de forma consistente, e quais são as limitações específicas de arquitetura e raciocínio que impedem um desempenho perfeito?

2. Metodologia

O estudo utilizou uma abordagem rigorosa e padronizada para avaliar quatro modelos de IA de ponta:

Modelos Avaliados: ChatGPT 4.1 mini, Gemini 2.5 Flash, Claude 4.0 Sonnet e DeepSeek R1.
Dados de Entrada: Questões de resposta aberta (FRQs) das provas de Física AP 1 e AP 2 (baseadas em álgebra) aplicadas entre 2015 e 2025 (excluindo 2020 devido à pandemia).
Protocolo de Teste:
- Prompt Padronizado: Os modelos foram instruídos a agir como "estudantes do ensino médio" resolvendo a prova, sem revelar sua natureza de IA. O prompt exigia passos claros, uso de fórmulas, unidades e interpretação explícita de diagramas.
- Condições: Nenhuma técnica avançada de prompt engineering (como chain-of-thought ou exemplos few-shot) foi utilizada, para refletir o desempenho base do usuário comum.
Avaliação:
- As respostas geradas foram corrigidas por três especialistas independentes em física (com doutorado e experiência no ensino superior).
- Utilizaram-se as rubricas oficiais do College Board para pontuação.
- Análise Estatística: Coeficiente de Correlação Intraclasses (ICC) e Alfa de Cronbach para confiabilidade entre avaliadores. Teste de Friedman (não paramétrico) para comparar modelos ao longo dos anos, seguido de testes post-hoc de Wilcoxon com correção de Bonferroni.

3. Principais Contribuições

Avaliação Longitudinal: Um dos primeiros estudos a analisar o desempenho de múltiplos LLMs ao longo de uma década de exames reais de física.
Taxonomia de Erros: Identificação sistemática de padrões de falha específicos da física (ex: interpretação de vetores, regra da mão direita, topologia de circuitos), indo além de métricas de pontuação bruta.
Análise de Variabilidade: Demonstração de que o desempenho não é estático; varia drasticamente dependendo do ano do exame e da complexidade visual/espacial da questão.
Metodologia Reprodutível: Estabelecimento de um template para avaliação de IA em STEM usando pontuação por múltiplos avaliadores e estatística não paramétrica.

4. Resultados Chave

A. Desempenho Geral

Todos os modelos alcançaram médias altas (82% a 92%), indicando forte capacidade em resolução de problemas algébricos estruturados.
Física AP 1 (Mecânica): Não houve diferença estatisticamente significativa entre os modelos ( $p = 0.141$ ). A liderança de desempenho oscilou anualmente, sugerindo que nenhuma arquitetura domina consistentemente problemas puramente algébricos/mecânicos.
Física AP 2 (Tópicos Avançados): Houve diferenças significativas ( $p = 0.0012$ $p = 0.0012$ ).
- Gemini e DeepSeek demonstraram desempenho superior e mais consistente (DeepSeek com CV = 4,7%).
- Claude performou significativamente pior que Gemini e DeepSeek.
- ChatGPT mostrou a maior variabilidade ano a ano (CV = 12,6%), oscilando entre desempenho excelente e baixo.

B. Padrões de Erro (Análise Qualitativa)

A análise revelou falhas recorrentes que limitam a utilidade pedagógica em contextos complexos:

Interpretação de Diagramas: Falha em extrair informações espaciais corretas (ex: direção de aceleração em ondas, polaridade em campos elétricos).
Leitura e Construção de Gráficos: Dificuldade em extrair valores numéricos de gráficos (ex: diagramas PV) e construir gráficos com escalas e pontos de equilíbrio corretos.
Raciocínio Vetorial e Direcional: Erros frequentes na identificação de direções de forças, campos elétricos e correntes induzidas.
Regra da Mão Direita: Erros sistemáticos na aplicação da regra da mão direita para forças magnéticas e campos, indicando dificuldade com raciocínio 3D a partir de texto/imagens 2D.
Topologia de Circuitos: Dificuldade em identificar corretamente conexões em série e paralelo a partir de esquemas, levando a cálculos errados de resistência equivalente.
Inconsistência Lógica: Erros iniciais (ex: leitura errada de um gráfico) que se propagam por todo o problema, invalidando cálculos subsequentes que, isoladamente, poderiam estar corretos.

5. Significado e Implicações

Potencial Pedagógico: Os LLMs são ferramentas eficazes para revisão de conceitos, manipulação algébrica e resolução de problemas bem definidos.
Limitações Críticas: Eles ainda carecem de raciocínio espacial, interpretação visual precisa e integração conceitual robusta. A "alucinação" em contextos físicos muitas vezes resulta em argumentos internamente consistentes, mas fisicamente incorretos.
Recomendações para Educadores:
- Usar respostas de IA como exemplos de conceitos errôneos para discussão em sala de aula.
- Evitar depender da IA para problemas que exigem interpretação de diagramas complexos ou raciocínio tridimensional.
Recomendações para Desenvolvedores: A próxima geração de modelos precisa focar em:
- Melhor grounding multimodal (conexão precisa entre texto, imagem e dados numéricos).
- Mecanismos de verificação de consistência interna.
- Capacidades aprimoradas de raciocínio espacial 3D.

Conclusão: Embora os sistemas de IA atuais mostrem promessas notáveis na física baseada em álgebra, eles não substituem o raciocínio humano em tarefas que exigem integração profunda de representações visuais, espaciais e conceituais. A avaliação contínua e crítica é essencial para sua integração responsável na educação.