RILEC: Detection and Generation of L1 Russian Interference Errors in English Learner Texts

Este trabajo presenta RILEC, un conjunto de datos a gran escala y un marco de generación de errores para detectar y producir interferencias del ruso en textos de aprendices de inglés, demostrando que el aumento de datos sintéticos mejora significativamente el rendimiento de los modelos en la identificación de estos errores.

Darya Kharlamova, Irina Proskurina

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que aprender un nuevo idioma es como intentar tocar una pieza de música en un piano que no es el tuyo. Si tu música favorita siempre se ha tocado en un piano con teclas negras y blancas específicas (tu lengua materna, el ruso), cuando intentas tocar en un piano diferente (el inglés), tus dedos a veces se deslizan por inercia y tocan las teclas equivocadas, aunque tu intención sea correcta.

Este es el problema que resuelve el paper "RILEC". Aquí te explico de qué trata, usando analogías sencillas:

1. El Problema: El "Fantasma" de tu Idioma Madre

Cuando un estudiante ruso escribe en inglés, a veces comete errores no porque no sepa la regla, sino porque su cerebro está "traduciendo" automáticamente desde el ruso.

  • Ejemplo: En ruso, la palabra para "tienda" y "caja" suena igual (kassa). Un estudiante podría escribir "cassa" en inglés, pensando que es la palabra correcta, pero en inglés es "cashier".
  • El desafío: Los correctores automáticos actuales son como maestros estrictos que solo dicen: "Esto está mal". Pero no explican por qué está mal. ¿Fue un error de ortografía? ¿O fue porque el estudiante pensó en ruso? Sin saber la causa, es difícil aprender.

2. La Solución: RILEC (El "Simulador de Entrenamiento")

Los autores crearon RILEC, que es como un gimnasio gigante de datos para entrenar a la inteligencia artificial.

  • El origen: Tuvieron un libro de ejercicios real con 6,000 frases escritas por rusos (llamado REALEC).
  • El truco: Ese libro era pequeño para entrenar a una IA moderna. Así que decidieron "clonar" y "crear" más ejercicios. Usaron tres métodos para llenar el gimnasio:
    1. El Robot que Aprende (PPO): Entrenaron a un robot pequeño (un modelo de lenguaje) para que intencionalmente cometa errores rusos al escribir en inglés. Es como un actor que practica hacer el tonto para que el maestro sepa cómo corregirlo.
    2. El Reglas de Oro (Reglas): Usaron una lista de instrucciones estrictas. Por ejemplo: "Si ves un año en el pasado, cambia el verbo al presente". Esto crea errores específicos de tiempo verbal.
    3. El Chatbot Creativo (LLM): Le pidieron a un chatbot inteligente (como Claude) que leyera ejemplos de errores y creara nuevos ejemplos similares, como un alumno que inventa sus propios ejercicios de práctica.

3. Los 5 Tipos de "Fantasmas" (Errores)

El sistema aprendió a detectar y clasificar estos errores en 5 categorías, como si fueran diferentes tipos de "golpes" en el piano:

  1. Copiar Expresiones: Traducir literalmente una frase rusa que no tiene sentido en inglés (como decir "hacer un baño" en lugar de "preparar un baño").
  2. Sinónimos Confusos: Usar la palabra incorrecta porque en ruso una sola palabra cubre dos significados en inglés (como usar "overcome" en lugar de "cover").
  3. Semántica del Tiempo: Usar el tiempo presente para hablar del pasado, porque en ruso a veces se permite.
  4. Transliteración: Escribir palabras rusas con letras inglesas (escribir "cassa" en vez de "cashier").
  5. Transmisión de Forma: Traer la gramática rusa al inglés (como poner un "s" al final de una palabra que no lo necesita, porque en ruso esa palabra siempre va en plural).

4. El Resultado: Un Detector de "Rayos X"

Al entrenar a la IA con este nuevo gimnasio gigante (RILEC), obtuvieron un detector de errores con visión de rayos X.

  • Antes: La IA decía: "Aquí hay un error".
  • Ahora: La IA dice: "Aquí hay un error. Es un error de Transliteración porque el estudiante pensó en la palabra rusa kassa".

¿Por qué es genial?

  • Para el alumno: No solo sabe que falló, sino que entiende que su lengua materna lo está engañando.
  • Para el profesor: Puede ver patrones. Si ve que muchos alumnos fallan en "Tiempo Verbal", sabe que debe explicar esa diferencia específica entre ruso e inglés.

En Resumen

Los autores construyeron un laboratorio de errores donde crearon miles de ejemplos de "malos escritos" hechos a propósito por rusos. Usaron esto para entrenar a una IA para que deje de ser solo un corrector ortográfico y se convierta en un tutor inteligente que entiende la psicología detrás del error.

Es como pasar de tener un mapa que solo te dice "estás perdido", a tener un GPS que te dice: "Estás perdido porque intentaste conducir por la calle de tu ciudad natal, pero aquí las calles son diferentes. Gira a la derecha".