Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Este estudo avalia a eficácia de modelos de linguagem de grande porte (LLMs) na correção automática de redações alemãs de nível A da Áustria com base em rubricas, concluindo que, embora os modelos consigam aplicar os critérios, sua baixa concordância com avaliadores humanos (32,8% nas notas finais) os torna inadequados para uso em ambientes reais de avaliação.

Jonas Kubesch, Lena Huber, Clemens Havas

Publicado 2026-03-09
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um professor de alemão na Áustria. Sua mesa está cheia de 101 redações de alunos. Cada uma precisa ser lida com atenção, comparada a uma "régua" de critérios muito específica e receber uma nota de 1 a 5. Isso leva horas, cansa a mente e, às vezes, sua própria fadiga pode fazer você ser um pouco mais rigoroso ou mais gentil com um aluno do que com outro.

O que este artigo tenta fazer é: "Podemos ensinar um robô superinteligente (uma Inteligência Artificial) a fazer esse trabalho de correção por nós?"

Aqui está a explicação do estudo, traduzida para uma linguagem simples, usando algumas analogias divertidas:

1. O Grande Experimento: O "Robô Professor"

Os pesquisadores pegaram quatro modelos de Inteligência Artificial (IA) diferentes — chamados de "LLMs" (como o Llama, Qwen, Mixtral e DeepSeek). Pense neles como quatro alunos de pós-graduação muito inteligentes, mas com personalidades diferentes.

O objetivo era ver se eles conseguiam ler as redações dos alunos e dar a nota correta, seguindo as mesmas regras que um professor humano usaria.

2. As Ferramentas: Como ensinar o robô?

Para o robô não alucinar e inventar notas, os pesquisadores testaram três métodos diferentes para "ajudá-lo" a entender o que fazer:

  • A Régua Seca (Zero-shot): Eles apenas disseram ao robô: "Aqui está a redação, aqui estão as regras, dê uma nota".
    • Resultado: Foi como tentar ensinar alguém a dirigir apenas lendo o manual. O robô ficou confuso e as notas foram ruins.
  • O Manual de Exemplos (RAG - Recuperação de Informação): Eles deram ao robô um "arquivo de casos anteriores". Se o robô precisava corrigir uma redação sobre "Literatura", eles mostravam exemplos de redações que receberam notas 1, 3 e 5.
    • Analogia: É como dar ao aluno um gabarito de provas passadas para ele estudar antes da prova.
    • Resultado: Melhorou um pouco, mas o robô ainda tinha dificuldade em variar as notas (tinha medo de dar notas extremas, como 1 ou 5).
  • A Conversa Guiada (Few-shot + CoT): Aqui, eles fizeram o robô "pensar em voz alta" e corrigir várias redações em sequência, recebendo feedback imediato sobre se estava certo ou errado.
    • Analogia: É como um estagiário que corrige uma redação, o professor diz "está errado", e o estagiário tenta de novo na próxima, aprendendo com o erro.
    • Resultado: Foi o método que funcionou melhor, especialmente quando misturaram exemplos de textos longos e curtos.

3. Os "Alunos" (Os Modelos de IA)

Nem todos os robôs se saíram bem. Foi como uma prova de aptidão:

  • Mixtral: Foi o aluno que "trancou" na prova. Ele deu nota 3 para quase tudo. Não serviu para nada.
  • DeepSeek: Foi o aluno muito rigoroso e confuso. Às vezes, ele até escrevia comentários em chinês quando estava bravo! Não era confiável.
  • Qwen: Foi um aluno rigoroso, mas que explicava bem o porquê das notas ruins.
  • Llama 3.3 (O Vencedor): Foi o único que conseguiu se adaptar. Ele conseguiu dar notas variadas (de 1 a 5) e escrever feedbacks úteis. Mas tinha um defeito: era lento. Enquanto os outros levavam 30 segundos, ele levava 4 minutos por redação.

4. O Veredito Final: O Robô está pronto para substituir o professor?

Não ainda.

Aqui está a realidade nua e crua do estudo:

  • Acordo Humano vs. Robô: Quando o robô e o professor humano corrigiam a mesma redação, eles concordavam na nota final apenas 32,8% das vezes.
  • O que isso significa? Imagine que você joga um dado de 6 lados com o robô. Se ele acertar a nota certa apenas 1 vez em cada 3 tentativas, você não pode confiar nele para decidir se um aluno passa ou reprova.

O robô é capaz de entender as regras e até usar a "régua" de critérios, mas ele ainda não tem a "intuição" e a experiência de um professor humano para julgar nuances sutis de um texto.

5. Por que não funciona perfeitamente ainda?

O estudo aponta alguns obstáculos:

  • Velocidade: O robô vencedor (Llama) é muito lento. Esperar 10 minutos por uma nota não é prático para uma sala de aula cheia.
  • Custo: Rodar esses robôs exige computadores superpotentes e caros.
  • Viés: O robô aprendeu com um único professor humano. Se aquele professor tinha um viés (gostava mais de um estilo de escrita), o robô aprendeu esse viés também.

Conclusão: O Futuro é uma Parceria

A mensagem final do artigo não é que "a IA é ruim", mas sim que a IA é uma ótima assistente, mas ainda não é a chefe.

O futuro ideal não é substituir o professor por um robô, mas usar o robô como um estagiário super-rápido que faz o trabalho chato de ler e dar uma primeira opinião, deixando o professor humano para fazer o julgamento final, garantindo justiça e empatia.

Resumo em uma frase: A tecnologia deu um grande passo, mas ainda precisamos polir o robô antes de deixá-lo sozinho na sala de correção.