From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um professor de inglês muito ocupado, com centenas de redações para corrigir. Sua tarefa é dar uma nota (de 0 a 9) e explicar por que o aluno recebeu aquela nota, baseando-se em regras específicas: o aluno respondeu à pergunta? O texto faz sentido? O vocabulário é bom? A gramática está correta?

Fazer isso manualmente é exaustivo e cansativo. É aí que entra a Inteligência Artificial (especificamente os Modelos de Linguagem Grandes, ou LLMs, como o GPT-4). Mas, como programar um robô para fazer esse trabalho de forma perfeita?

Este artigo é como um "Grande Torneio de Corretores Robôs". Os pesquisadores testaram quatro métodos diferentes para ver qual deles consegue corrigir redações de alunos (que estão aprendendo inglês como segunda língua) da maneira mais justa, precisa e barata possível.

Aqui está a explicação simples dos quatro "competidores" e quem venceu:

1. O "Estudante de Engenharia" (Ajuste Discriminativo)

A Analogia: Imagine um aluno que decorou milhares de redações antigas e suas notas. Ele não "entende" a redação como um humano; ele apenas procura padrões. Se a redação tem muitas palavras difíceis e frases longas, ele chuta que a nota é alta.
O Resultado: Ele é rápido e barato, mas é um pouco "burro". Ele erra detalhes sutis e não consegue explicar bem por que deu a nota. É como tentar adivinhar o sabor de um bolo apenas olhando a cor da farinha.

2. O "Visitante de Visita" (Prompting / Zero-shot)

A Analogia: Aqui, você pega um robô superinteligente (como o GPT-4) e diz: "Olha, você é um examinador do IELTS. Leia essa redação e dê uma nota". Você não ensina nada novo para ele, apenas pede educadamente.
O Resultado: É muito flexível e não custa nada para "treinar" o robô. Mas, como ele não foi treinado especificamente para essa tarefa, ele pode ficar confuso. Às vezes ele é ótimo, às vezes ele alucina (inventa coisas) ou dá notas muito variadas dependendo de como você faz a pergunta. É como pedir para um chef famoso cozinhar um prato que ele nunca viu antes, apenas com uma receita escrita.

3. O "Estagiário Especializado com Manual" (Ajuste de Instrução + RAG)

A Analogia: Este é o grande vencedor do torneio. Imagine que você pega um robô inteligente e:
1. Treina ele especificamente para ser um examinador (ensinando-o as regras).
2. Dá a ele um "Manual de Instruções" (o RAG - Geração Aumentada por Recuperação) que ele pode consultar a qualquer momento. Se ele tiver dúvida sobre o que é "Coerência", ele consulta o manual e vê exemplos reais de redações boas e ruins.
O Resultado: Ele é extremamente preciso. Ele consegue dar a nota exata (93% de precisão!) e explicar os erros com detalhes, citando as regras. É como ter um professor experiente que, ao mesmo tempo, tem um livro de respostas aberto na mesa para garantir que não cometa erros.

4. O "Mentor Humanizado" (Ajuste com Preferência Humana)

A Analogia: Este robô foi treinado não apenas para dar a nota, mas para agradar os humanos. Ele aprendeu com feedbacks de pessoas reais: "Essa explicação foi confusa", "Essa foi muito útil". Ele tenta imitar o estilo de um professor humano, focando em dar conselhos construtivos e naturais.
O Resultado: Ele é excelente em dar feedbacks que soam humanos e encorajadores. No entanto, às vezes ele erra a nota exata (diz 6.5 quando deveria ser 7.0) porque está focado em ser "legal" e coerente, em vez de ser matematicamente perfeito. É como um professor que adora seus alunos e dá um feedback maravilhoso, mas às vezes é um pouco generoso demais na nota.

O Veredito Final: O Que Aprendemos?

O estudo descobriu que não existe um "robô perfeito" para tudo. Tudo depende do que você precisa:

Se você precisa de precisão cirúrgica (como em exames oficiais onde a nota define se você passa ou não): O Método 3 (Robô com Manual de Instruções) é o campeão. Ele acerta a nota quase sempre.
Se você precisa de um feedback amigável para ajudar o aluno a aprender (como em um curso online): O Método 4 é melhor. Ele fala de forma mais natural e construtiva, mesmo que a nota não seja 100% exata.
Custo vs. Benefício: Métodos mais simples (como o 1 e o 2) são baratos, mas imprecisos. Métodos mais complexos (3 e 4) exigem mais poder de computador, mas valem a pena pela qualidade.

Em resumo: A pesquisa nos mostrou que, para corrigir redações de alunos estrangeiros, a melhor estratégia é ensinar o robô as regras específicas e dar a ele exemplos reais para consultar, em vez de apenas pedir para ele "adivinhar" ou tentar imitar um humano sem treino. É a combinação de conhecimento técnico + exemplos práticos que traz a melhor nota.

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

1. O "Estudante de Engenharia" (Ajuste Discriminativo)

2. O "Visitante de Visita" (Prompting / Zero-shot)

3. O "Estagiário Especializado com Manual" (Ajuste de Instrução + RAG)

4. O "Mentor Humanizado" (Ajuste com Preferência Humana)

O Veredito Final: O Que Aprendemos?

Resumo Técnico: Da Prompting à Otimização de Preferência

1. Problema e Motivação

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Impacto

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

1. O "Estudante de Engenharia" (Ajuste Discriminativo)

2. O "Visitante de Visita" (Prompting / Zero-shot)

3. O "Estagiário Especializado com Manual" (Ajuste de Instrução + RAG)

4. O "Mentor Humanizado" (Ajuste com Preferência Humana)

O Veredito Final: O Que Aprendemos?

Resumo Técnico: Da Prompting à Otimização de Preferência

1. Problema e Motivação

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Impacto

Mais como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models