Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math

Este artigo apresenta o ScratchMath, um novo benchmark e conjunto de dados com 1.720 amostras de rascunhos matemáticos manuscritos de estudantes chineses, projetado para avaliar e melhorar a capacidade de modelos de linguagem multimodal (MLLMs) em identificar, classificar e explicar erros de raciocínio, revelando lacunas significativas entre o desempenho atual desses modelos e o de especialistas humanos.

Dingjie Song, Tianlong Xu, Yi-Fan Zhang, Hang Li, Zhiling Yan, Xing Fan, Haoyang Li, Lichao Sun, Qingsong Wen

Publicado 2026-03-27
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um professor tentando corrigir a prova de um aluno. Você não olha apenas para a resposta final escrita no quadro; você olha para o rascunho (os rabiscos, os cálculos feitos à mão, os traços tortos) para entender onde e por que o aluno errou.

O artigo que você compartilhou, "ScratchMath", trata exatamente disso: ele pergunta se as Inteligências Artificiais (IA) mais avançadas do mundo conseguem "ler a mente" dos alunos olhando para esses rabiscos manuscritos de matemática.

Aqui está a explicação do trabalho, traduzida para uma linguagem simples e cheia de analogias:

1. O Problema: O "Detetive" que só vê a resposta certa

Atualmente, temos IAs muito inteligentes (chamadas de MLLMs) que são ótimas em resolver problemas de matemática. Elas agem como alunos-modelo: se você der um problema, elas calculam a resposta certa rapidinho.

Mas o papel de um professor não é apenas dar a resposta certa; é diagnosticar o erro.

  • A Analogia: Imagine um médico que só sabe dizer "você está saudável" ou "você está doente", mas não sabe dizer qual vírus você pegou ou por que você está com febre.
  • O Desafio: Os rabiscos dos alunos são bagunçados. A letra é feia, os números parecem letras (um "1" pode parecer um "l" ou um traço "|"), e o raciocínio pode estar em lugares estranhos da folha. As IAs atuais costumam falhar em entender essa "bagunça" e, em vez de explicar o erro, elas apenas tentam resolver o problema de novo, ignorando o que o aluno realmente pensou.

2. A Solução: O "ScratchMath" (O Campo de Treino)

Os pesquisadores criaram um novo "campo de treino" chamado ScratchMath.

  • O que é: Um banco de dados com 1.720 exemplos reais de rabiscos de alunos chineses (do ensino fundamental ao médio).
  • A Missão: Eles pediram para as IAs fazerem duas coisas:
    1. Explicar o erro: "O aluno errou porque confundiu gramas com quilogramas."
    2. Classificar o erro: "Isso foi um erro de cálculo" ou "Isso foi um erro de compreensão do problema".

É como se eles tivessem criado um simulador de escola onde a IA precisa atuar como um professor experiente, não como um aluno brilhante.

3. O Experimento: Quem é o melhor professor?

Eles testaram 16 IAs diferentes (algumas gratuitas e de código aberto, outras pagas e proprietárias, como as da OpenAI e Google) contra esse banco de dados.

Os Resultados (A "Prova" da IA):

  • Humanos vs. Máquinas: Os professores humanos (expertos) foram muito melhores. As IAs ainda estão "gaguejando" quando tentam ler letras manuscritas tortas ou entender a lógica por trás de um cálculo errado.
  • As IAs "Proprietárias" (Pagas) venceram: Modelos mais caros e complexos (como o o4-mini) se saíram muito melhor do que as versões gratuitas. Eles são como estagiários mais experientes que conseguem ler melhor a letra feia.
  • Onde elas falham:
    • Cegueira Visual: Às vezes, a IA não consegue ler um número manuscrito e acha que é outro. É como tentar ler um bilhete escrito por alguém com mão trêmula.
    • Alucinação: Às vezes, a IA inventa uma explicação que faz sentido para ela, mas não tem nada a ver com o que o aluno escreveu. É como um detetive que inventa uma motivação para o crime sem provas.
    • Raciocínio Lógico: Elas têm dificuldade em seguir a "trilha" do pensamento do aluno quando há vários passos.

4. O Que Aprendemos? (As Descobertas)

  • Não é só sobre o tamanho: IAs maiores geralmente são melhores, mas não são perfeitas.
  • O nível da escola importa: Surpreendentemente, para classificar o tipo de erro, as IAs se saíram melhor com alunos do ensino médio do que com crianças do ensino fundamental. Por quê? Porque os rabiscos dos adolescentes são mais organizados e legíveis, enquanto os das crianças são mais caóticos e difíceis de decifrar.
  • A lacuna é grande: Ainda existe um abismo enorme entre o que uma IA consegue fazer hoje e o que um professor humano consegue fazer ao olhar para um caderno.

Conclusão: Para onde vamos?

O artigo diz que, embora as IAs sejam incríveis para resolver matemática, elas ainda precisam aprender a ensinar e corrigir matemática.

A Metáfora Final:
Hoje, a IA é como um calculadora superpoderosa que pode fazer a conta em 0,01 segundos. O que o ScratchMath quer é transformar essa calculadora em um tutor paciente que olha para o caderno do aluno, aponta o dedo no papel e diz: "Ei, você errou aqui porque esqueceu de converter a unidade, não porque não sabe a tabuada."

O trabalho é um passo importante para criar IAs que realmente entendam como os alunos pensam, e não apenas como eles respondem.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →