From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un examen de inglés muy importante, como el IELTS, donde debes escribir un ensayo sobre un tema (por ejemplo: "¿Deberían las computadoras reemplazar a los maestros?"). Tradicionalmente, un profesor humano lee tu texto, lo califica y te dice qué hiciste bien y qué mal. Pero los profesores son humanos: se cansan, tardan mucho y a veces no se ponen de acuerdo.

Aquí es donde entra la Inteligencia Artificial (IA), específicamente los Modelos de Lenguaje Grandes (LLM), como los que usan ChatGPT o Gemini. La pregunta de este estudio es: ¿Cuál es la mejor forma de "enseñar" a una IA para que califique esos ensayos tan bien como un humano?

Los autores de este estudio (de la Universidad de Ciencia de Ho Chi Minh, Vietnam) probaron cuatro métodos diferentes para ver cuál funcionaba mejor. Vamos a usar una analogía para entenderlo:

La Analogía: El Examen de Conducción

Imagina que la IA es un automóvil nuevo y la tarea es calificar ensayos. Necesitamos entrenar a este coche para que sea un "examinador de conducción" perfecto.

1. El Método Clásico (Ajuste Discriminativo)

La analogía: Es como darle al coche un manual de reglas estrictas y decirle: "Si ves una mancha de aceite, resta 1 punto. Si el motor hace ruido, resta 2".
Cómo funciona: Se entrena un modelo matemático para mirar el ensayo y saltar directamente a una nota (ej. 6.5).
Resultado: Es rápido y barato, pero el coche es un poco "tonto". Sigue las reglas, pero no entiende el sentido de la conducción. A veces falla si el ensayo es un poco diferente a lo que vio en el manual.

2. El Método "Preguntar al Experto" (Prompting / Zero-shot)

La analogía: Es como subirte al coche y decirle: "Oye, eres un experto en conducción. Lee este ensayo y dime qué nota le darías". No le das reglas nuevas, solo le hablas.
Cómo funciona: Le pides a una IA muy potente (como GPT-4) que actúe como un examinador sin entrenarla específicamente para eso.
Resultado: Funciona bastante bien porque la IA ya sabe mucho de inglés, pero es inestable. A veces el coche responde genial, y otras veces se distrae o inventa cosas. Además, es muy caro usar estos modelos potentes cada vez.

3. El Método "Entrenamiento con Manuales y Ejemplos" (Instruction Tuning + RAG)

La analogía: Aquí le damos al coche un manual de instrucciones específico para el examen de IELTS y, además, le conectamos una biblioteca en tiempo real. Antes de calificar, el coche busca en la biblioteca ejemplos de ensayos que ya calificaron otros expertos para ver cómo se hace.
Cómo funciona: Se entrena a la IA para que siga instrucciones paso a paso (Task Response, Coherencia, Vocabulario, Gramática) y le permitimos "buscar" ejemplos similares antes de dar su veredicto.
Resultado: ¡Este fue el ganador! El coche ahora es un examinador muy preciso. No solo da la nota exacta (93% de precisión), sino que sabe exactamente por qué. Es como tener un profesor que consulta sus apuntes antes de corregir.

4. El Método "Aprendizaje por Preferencias" (SFT + DPO)

La analogía: Imagina que el coche ya sabe calificar, pero ahora le enseñamos a comprender la opinión humana. Le mostramos dos correcciones: una que un humano prefirió y otra que no. El coche aprende a imitar el estilo y la suavidad de un profesor humano.
Cómo funciona: Se entrena a la IA no solo para acertar la nota, sino para dar un feedback (comentario) que suene más natural y pedagógico, como si lo hubiera escrito un humano real.
Resultado: Es excelente para dar consejos constructivos. Sus comentarios son más coherentes y útiles para el estudiante, aunque a veces la nota numérica sea un pelín menos precisa que el Método 3.

¿Qué descubrieron? (La Gran Lección)

El estudio comparó estos métodos y encontró un equilibrio (trade-off) muy interesante:

Precisión vs. Costo:
- Si quieres algo barato y rápido (como el Método 1), obtendrás resultados mediocres.
- Si quieres precisión absoluta (la nota exacta), el Método 3 (Entrenamiento + Biblioteca de ejemplos) es el rey. Es el mejor para exámenes oficiales donde la nota es lo más importante.
- Si quieres consejos útiles para que el estudiante aprenda, el Método 4 es el mejor, porque sus explicaciones suenan más humanas.
La Conclusión Final:
No existe una "bala de plata" mágica.
- Para calificar masivamente (como en un examen nacional), usa el Método 3.
- Para ayudar a estudiantes a mejorar en casa, usa el Método 4.

En resumen:
Los autores demostraron que simplemente "preguntarle" a una IA no es suficiente. Para que una IA sea un buen profesor de inglés, necesita entrenamiento específico (aprender las reglas del juego) y acceso a ejemplos (ver cómo lo hacen los demás). Con la combinación correcta, la IA puede calificar ensayos casi tan bien como un humano, pero a una velocidad y costo que un humano nunca podría igualar.

¡Y lo mejor de todo! Ellos compartieron su código y datos públicamente para que cualquiera pueda seguir aprendiendo y mejorando este sistema.

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

La Analogía: El Examen de Conducción

1. El Método Clásico (Ajuste Discriminativo)

2. El Método "Preguntar al Experto" (Prompting / Zero-shot)

3. El Método "Entrenamiento con Manuales y Ejemplos" (Instruction Tuning + RAG)

4. El Método "Aprendizaje por Preferencias" (SFT + DPO)

¿Qué descubrieron? (La Gran Lección)

Resumen Técnico: De la Prompting a la Optimización de Preferencias en la Evaluación Automatizada de Ensayos

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

La Analogía: El Examen de Conducción

1. El Método Clásico (Ajuste Discriminativo)

2. El Método "Preguntar al Experto" (Prompting / Zero-shot)

3. El Método "Entrenamiento con Manuales y Ejemplos" (Instruction Tuning + RAG)

4. El Método "Aprendizaje por Preferencias" (SFT + DPO)

¿Qué descubrieron? (La Gran Lección)

Resumen Técnico: De la Prompting a la Optimización de Preferencias en la Evaluación Automatizada de Ensayos

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models