Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

Each language version is independently generated for its own context, not a direct translation.

🤖 O "Estagiário" de IA: Um Teste na Cozinha da Matemática

Imagine que você é um chef de cozinha experiente (o professor). Sua tarefa é preparar pratos (as tarefas de matemática) que desafiem seus alunos de formas diferentes:

Memorização: Apenas decorar o nome dos ingredientes.
Procedimentos (sem conexão): Seguir uma receita passo a passo sem entender por que o bolo cresce.
Procedimentos (com conexão): Entender por que a receita funciona e como mudar os ingredientes.
Fazer Matemática: Criar uma receita totalmente nova do zero, sem saber se vai dar certo, exigindo muita criatividade e raciocínio.

O problema? Os chefs estão exaustos e não têm tempo para analisar cada prato. Então, eles contrataram 11 assistentes de cozinha (as ferramentas de IA, como ChatGPT, Claude, Khanmigo, etc.) para classificar esses pratos e dizer: "Este é fácil" ou "Este é difícil".

O estudo perguntou: Esses assistentes robóticos conseguem fazer esse trabalho sozinhos?

📉 O Resultado: "Eles acertam, mas não entendem"

A resposta curta é: Eles estão no caminho, mas ainda não são confiáveis.

A Pontuação: Em média, os robôs acertaram apenas 63% das vezes. Imagine um aluno que tira 6,3 em uma prova de 10. É melhor que chutar (que seria 25%), mas longe de ser um especialista.
O "Robô Especializado" vs. "O Geral": Você poderia pensar que os robôs feitos especificamente para escolas (como o Khanmigo) seriam melhores. Não foram. Eles tiveram desempenho quase idêntico aos robôs genéricos (como o ChatGPT). O melhor de todos foi o DeepSeek (um robô geral), com 83% de acerto, mas mesmo ele errou em tarefas difíceis.

🎯 O Grande Vício: A "Zona de Conforto"

O achado mais curioso foi o viés do meio.
Quando os robôs não tinham certeza, eles tendiam a classificar tudo como "Procedimentos" (o meio da escala).

Eles tinham medo de dizer que algo era "Memorização pura" (o extremo baixo).
Eles tinham medo de dizer que algo era "Fazer Matemática" (o extremo alto).
A Analogia: É como se você pedisse a um amigo para classificar filmes de "Chato" a "Obra-prima". Se ele não tiver certeza, ele vai dizer "É um filme normal". Os robôs evitam os extremos.

🕵️‍♂️ Por que eles erram? (O Detetive de Superfície)

Os pesquisadores olharam como os robôs pensavam e descobriram um problema grave: eles olham apenas para a capa do livro, não para o conteúdo.

O Erro de Superfície: Se uma tarefa de matemática tem a palavra "algoritmo" ou "procedimento" escrita nela, o robô imediatamente pensa: "Ah, isso é fácil!".
A Realidade: Às vezes, uma tarefa parece simples na descrição, mas exige que o aluno crie uma equação do zero para resolver um problema real. O robô não percebeu a complexidade oculta.
A Analogia: É como julgar um filme apenas pela capa. Se a capa diz "Ação", o robô assume que é um filme de ação, mesmo que o filme seja um drama lento e profundo. Eles não conseguem "sentir" a dificuldade mental que a tarefa exige.

🧩 O Caso Específico: A Tarefa "K"

Houve uma tarefa chamada K que foi um desastre para a maioria dos robôs (apenas 9% de acerto).

O que era: Um problema sobre uma fábrica de camisetas onde o aluno precisava criar sua própria equação para explicar o preço.
O que os robôs pensaram: "Tem números, tem uma história, deve ser um procedimento comum."
O que era na verdade: Um desafio de "Fazer Matemática" (nível máximo), porque exigia que o aluno construísse o raciocínio do zero.
A Lição: Os robôs confundem "ter uma história" com "ser complexo".

🚦 O Veredito Final: Use como "Co-piloto", não como "Piloto"

O estudo conclui que não podemos deixar os robôs sozinhos para classificar tarefas de matemática hoje em dia. Se um professor confiar cegamente neles, pode acabar usando tarefas muito fáceis ou muito difíceis sem perceber.

Mas eles têm utilidade!

Como um "Alerta": Eles podem servir para sinalizar tarefas que precisam de uma segunda opinião humana.
Como um "Treinador": Se o professor souber como pedir (usando "engenharia de prompt" – instruções mais detalhadas), o robô pode melhorar muito.
O Futuro: A tecnologia está evoluindo rápido. O que hoje acerta 63%, amanhã pode acertar 90%. Mas, por enquanto, o olho humano do professor continua sendo insubstituível para garantir a qualidade do ensino.

Resumo em uma frase:
As IAs são como estagiários inteligentes que leem o rótulo dos ingredientes, mas ainda não têm a experiência de chef para saber se a receita vai realmente desafiar o aluno; por isso, o professor precisa sempre dar a última palavra.

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

🤖 O "Estagiário" de IA: Um Teste na Cozinha da Matemática

📉 O Resultado: "Eles acertam, mas não entendem"

🎯 O Grande Vício: A "Zona de Conforto"

🕵️‍♂️ Por que eles erram? (O Detetive de Superfície)

🧩 O Caso Específico: A Tarefa "K"

🚦 O Veredito Final: Use como "Co-piloto", não como "Piloto"

Título: Desempenho Basal de Ferramentas de IA na Classificação da Demanda Cognitiva de Tarefas Matemáticas

1. Problema e Motivação

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significância e Implicações

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

🤖 O "Estagiário" de IA: Um Teste na Cozinha da Matemática

📉 O Resultado: "Eles acertam, mas não entendem"

🎯 O Grande Vício: A "Zona de Conforto"

🕵️‍♂️ Por que eles erram? (O Detetive de Superfície)

🧩 O Caso Específico: A Tarefa "K"

🚦 O Veredito Final: Use como "Co-piloto", não como "Piloto"

Título: Desempenho Basal de Ferramentas de IA na Classificação da Demanda Cognitiva de Tarefas Matemáticas

1. Problema e Motivação

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significância e Implicações

Mais como este

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

Online Monitoring of Metric Temporal Logic using Sequential Networks

Homotopy type theory as a language for diagrams of $\infty$ -logoses