Implicit Grading Bias in Large Language Models: How Writing Style Affects Automated Assessment Across Math, Programming, and Essay Tasks

Este estudio demuestra que, a pesar de las instrucciones explícitas para ignorar el estilo, los modelos de lenguaje grande exhiben un sesgo de calificación significativo y dependiente de la materia en tareas de redacción al penalizar el lenguaje informal y las construcciones no nativas, mientras que muestran una evaluación justa en tareas de matemáticas y programación.

Autores originales: Rudra Jadhav, Janhavi Danve, Sonalika Shaw

Publicado 2026-03-20✓ Author reviewed
📖 5 min de lectura🧠 Análisis profundo

Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un juez digital muy inteligente, capaz de leer miles de exámenes en segundos. Este juez es una Inteligencia Artificial (IA) llamada "Modelo de Lenguaje". Las escuelas y universidades están pensando en usarlo para calificar a los estudiantes, ahorrando tiempo y dinero.

Pero, ¿qué pasa si este juez es un poco prejuicioso? ¿Qué pasa si castiga a un estudiante no por lo que sabe, sino por cómo escribe?

Este estudio es como una prueba de estrés para ver si estos jueces digitales son realmente justos. Los investigadores crearon un experimento muy curioso para descubrir la verdad.

🧪 El Experimento: "La Camisa y el Cerebro"

Imagina que tienes un cerebro brillante que sabe resolver problemas de matemáticas o escribir ensayos perfectos. Ahora, ponle a ese cerebro tres tipos de "camisas" diferentes:

  1. La camisa formal: Un inglés perfecto, académico y serio.
  2. La camisa informal: Un lenguaje de chat, con jerga, abreviaturas y un tono de conversación relajada (como hablar con un amigo).
  3. La camisa de "no nativo": Un inglés con errores típicos de alguien que lo aprendió como segunda lengua (preposiciones extrañas, artículos mal usados).

La clave del truco: El contenido (el cerebro) es idéntico en las tres camisas. La respuesta correcta es la misma. Solo cambia la "ropa" (el estilo de escritura).

Luego, mostraron estas respuestas a dos de los mejores "jueces" de IA del mundo (LLaMA y Qwen) y les dijeron: "Por favor, califiquen solo el contenido. Ignoren el estilo, la gramática o si suena informal".

📉 Los Resultados: ¿Quién fue castigado?

Aquí es donde la historia se pone interesante. Los resultados fueron como un termómetro de la subjetividad:

1. Las Matemáticas y la Programación: El "Juez de Cálculo" 🧮💻

En estas materias, la respuesta es verdadera o falsa. O el código funciona, o no.

  • El resultado: La IA fue justa. No importaba si el estudiante escribía "2x = 8" de forma formal o con jerga de chat ("u gotta restar 5..."). La IA vio que la lógica era correcta y dio la misma nota.
  • La analogía: Es como un juez que solo mira si el coche tiene gasolina. No le importa si el conductor lleva un traje o una camiseta de fútbol; si el coche arranca, la nota es 10.

2. Los Ensayos y la Redacción: El "Juez de Opinión" 📝🎭

Aquí es donde la IA se volvió injusta. En los ensayos, no hay una única respuesta correcta; hay que juzgar la calidad del argumento.

  • El resultado: La IA castigó duramente a los estudiantes que no usaban el "inglés académico perfecto".
    • Si un estudiante usaba lenguaje informal (como hablar con amigos), la IA le bajó hasta 1.9 puntos en una escala de 10. ¡Eso es como pasar de un "B+" a un "C+"!
    • Si un estudiante usaba frases de no nativo, también le bajaron puntos, aunque un poco menos.
  • La analogía: Imagina que dos personas dan el mismo discurso brillante. Una lo dice con voz de locutor de noticias y la otra con acento extranjero o usando palabras de calle. La IA, en lugar de escuchar el mensaje, se enfadó con la "voz" y les dio una mala nota.

🤔 ¿Por qué pasa esto? (La Trampa del Entrenamiento)

Los investigadores descubrieron algo preocupante: Las instrucciones no sirvieron de nada.

Aunque les dijeron a las IAs: "¡No castiguen el estilo!", ellas lo hicieron de todos modos.

  • ¿Por qué? Porque estas IAs se entrenaron leyendo millones de libros, periódicos y artículos académicos. En ese mundo, el lenguaje "informal" o "no nativo" a menudo se asocia con contenido de baja calidad (como comentarios de redes sociales o foros).
  • La IA aprendió una asociación invisible: "Si suena informal, probablemente sea malo". Incluso cuando se le ordenó lo contrario, su "cerebro" (sus pesos internos) seguía creyendo en esa asociación. Es como intentar enseñarle a un perro a no ladrar cuando ve un gato, pero el perro sigue ladrando porque su instinto es más fuerte que el entrenamiento.

💡 ¿Qué significa esto para el futuro?

Este estudio nos da una advertencia importante:

  1. No es justo para todos: Si las escuelas usan estas IAs para calificar ensayos, los estudiantes de primera generación, los que tienen acentos o los que son más informales, recibirán notas más bajas no porque sean menos inteligentes, sino porque su estilo no coincide con el "libro de texto" de la IA.
  2. La IA no es mágica: No basta con decirle "sé justo" en el mensaje de instrucciones. El sesgo está más profundo, en cómo la IA "piensa".
  3. Solución sugerida:
    • Usar la IA solo para cosas objetivas (como matemáticas o código).
    • Para los ensayos, mantener a un humano revisando las notas, especialmente si hay estudiantes de diversos orígenes.
    • Antes de usar una IA en una escuela, hay que hacerle una "prueba de sesgo" (como la que hicieron en este estudio) para ver si castiga estilos de escritura diferentes.

En resumen

La Inteligencia Artificial es una herramienta poderosa, pero en este caso, actuó como un juez que valora más la ropa que la persona. Mientras que en las matemáticas fue un juez justo, en los ensayos se convirtió en un guardián que solo acepta un tipo de voz, dejando fuera a muchos estudiantes talentosos que simplemente escriben de forma diferente.

El mensaje final es claro: La tecnología debe servir a todos los estudiantes, no solo a los que ya escriben como la máquina.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →