Implicit Grading Bias in Large Language Models: How Writing Style Affects Automated Assessment Across Math, Programming, and Essay Tasks

Este estudo revela que, embora modelos de linguagem de grande escala (LLMs) demonstrem viés de correção significativo em tarefas de redação ao penalizar estilos de escrita informal ou não nativa apesar de instruções explícitas para ignorá-los, esse viés é mínimo ou inexistente em tarefas de matemática e programação.

Autores originais: Rudra Jadhav, Janhavi Danve, Sonalika Shaw

Publicado 2026-03-20✓ Author reviewed
📖 5 min de leitura🧠 Leitura aprofundada

Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

🎓 O "Professor Robô" e o Viés Invisível: Uma História sobre Justiça nas Notas

Imagine que você tem um super-robô professor (um Modelo de Linguagem ou LLM) que foi contratado para corrigir milhares de provas de alunos em segundos. Ele é rápido, não cansa e promete ser justo com todos.

Mas, e se esse robô tiver um "preconceito invisível"? E se ele der nota baixa não porque o aluno errou a matéria, mas apenas porque o aluno escreveu de um jeito diferente do que o robô está acostumado?

Foi exatamente isso que os pesquisadores Rudra, Janhavi e Sonalika descobriram no estudo que você leu. Eles testaram dois desses "super-robôs" (chamados LLaMA e Qwen) para ver se eles eram realmente justos.

🧪 O Experimento: A Prova de Fogo

Para testar isso, eles criaram um cenário de "laboratório":

  1. A Matéria Certa: Eles escreveram 60 respostas perfeitas para perguntas de Matemática, Programação e Redação.
  2. O "Truque" de Estilo: Eles pegaram essas respostas perfeitas e as "estragaram" de três jeitos, mas sem mudar o conteúdo correto:
    • Erros de Gramática: Como se o aluno tivesse pressa ou não tivesse revisado.
    • Linguagem Informal: Usando gírias e abreviações (tipo "u gotta" em vez de "you have to").
    • Fraseado "Não Nativo":: Como se o aluno estivesse traduzindo mentalmente de outro idioma.

Depois, eles mandaram essas versões "estragadas" para os robôs corrigirem, dizendo explicitamente: "Ei, robô! Ignore o estilo e a gramática. Avalie apenas se a ideia está certa!"

📉 O Que Aconteceu? (A Grande Divisão)

O resultado foi surpreendente e mostrou uma grande divisão entre os tipos de prova:

1. Matemática e Programação: O Robô é um "Mestre da Lógica" 🧮💻
Quando a prova era sobre números ou código, o robô foi justo.

  • Analogia: Imagine que você pede para alguém verificar se uma conta de somar está certa. Se a pessoa escrever "2+2=4" ou "dois mais dois igual quatro", o resultado é o mesmo. O robô viu que a lógica estava certa e deu a nota máxima, ignorando se o texto estava cheio de gírias ou erros de português.
  • Resultado: Pouquíssimo viés. O robô não se importou com o "sotaque" da escrita.

2. Redação e Ensaios: O Robô é um "Crítico de Estilo" ✍️🚫
Aqui foi onde a mágica (e o problema) aconteceu. Quando a prova exigia opinião, argumentos e criatividade, o robô puniram severamente os alunos que não escreviam de forma "polida".

  • A Punção: Mesmo com a ordem de "ignorar o estilo", o robô tirou pontos.
    • Se o aluno usou gírias (linguagem informal), o robô tirou até 1,9 pontos de uma nota de 10.
    • Se o aluno usou frases de não nativo, o robô tirou até 1,35 pontos.
  • Analogia: Imagine que dois alunos escrevem um ensaio perfeito sobre "A importância da água".
    • O Aluno A escreve como um livro de gramática: "A água é um recurso vital..."
    • O Aluno B escreve de forma mais natural e direta: "Cara, a água é super importante pra gente..."
    • O robô deu nota 10 para o Aluno A e nota 8 para o Aluno B. O robô achou que a ideia do Aluno B era pior, só porque a "roupa" da escrita era diferente.

🤔 Por que isso acontece?

Os pesquisadores explicam que os robôs foram treinados lendo milhões de livros, artigos científicos e notícias. Eles aprenderam que "texto formal = inteligência" e "texto informal = erro".

É como se o robô tivesse um filtro de óculos escuros que só deixa ver a beleza em textos que parecem escritos por acadêmicos. Mesmo quando você tira os óculos dele (dizendo "não julgue o estilo"), o cérebro do robô ainda está acostumado a associar gírias com falta de qualidade.

⚠️ O Perigo Real

Isso é perigoso para a educação porque:

  • Não é justo: Alunos que vêm de culturas orais, que são neurodivergentes, ou que estão aprendendo inglês como segunda língua, podem ter ótimas ideias, mas o robô vai dar nota baixa só porque o jeito de escrever deles é diferente do padrão "livro de texto".
  • O "Robô" não é mágico: O estudo mostrou que pedir educadamente para o robô ser justo (no prompt) não funciona. O viés está "queimado" no cérebro dele.

🚀 O Que Fazer? (A Lição Final)

O estudo termina com um conselho importante para escolas e universidades:

  1. Não confie cegamente no robô para redações: Use robôs para corrigir matemática e código (onde eles são justos), mas mantenha professores humanos para corrigir textos e opiniões.
  2. Teste antes de usar: Antes de contratar um sistema de correção automática, faça um teste de "estilo" para ver se ele pune alunos que escrevem de forma diferente.
  3. Justiça é mais que código: Ensinar robôs a serem justos exige mais do que apenas dar instruções; exige mudar como eles aprendem.

Em resumo: O robô é ótimo em lógica, mas ainda é um pouco preconceituoso com o jeito que as pessoas se expressam. Na educação, onde a voz de cada aluno importa, não podemos deixar que um robô decida o futuro de alguém baseado apenas no "sotaque" da escrita.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →