Training with Pseudo-Code for Instruction Following

El artículo propone un método de entrenamiento que mejora la capacidad de seguimiento de instrucciones de los modelos de lenguaje grande al fine-tunearlos con datos que incluyen representaciones de pseudo-código de las instrucciones naturales, logrando ganancias significativas en benchmarks de seguimiento de instrucciones y razonamiento sin sacrificar el rendimiento general.

Prince Kumar, Rudra Murthy, Riyaz Bhat, Danish Contractor

Publicado 2026-03-12
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un amigo muy inteligente, un "genio de la biblioteca" (que es como un modelo de lenguaje grande o LLM), al que le pides que haga cosas. A veces, este genio es increíblemente bueno, pero otras veces, si le das una instrucción un poco complicada o con muchos detalles, se confunde y hace lo que cree que debes decir, no lo que realmente pediste.

Este paper es como un manual de entrenamiento para enseñarle a ese genio a pensar de una manera más ordenada antes de responder. Aquí te lo explico con una analogía sencilla:

El Problema: El Genio que se pierde en las palabras

Imagina que le pides al genio: "Escribe una historia sobre un gato, pero no uses la letra 'a', empieza con una rima y termina con una pregunta."

Si se lo pides en idioma normal (como lo hacemos los humanos), el genio a veces olvida una parte. Se enfoca en la historia y olvida la regla de la "a", o se pierde en la rima y olvida la pregunta. Es como si le dieras un mapa con muchas flechas dibujadas a mano; a veces se pierde en los detalles.

La Solución: El "Plan de Código" (Pseudo-código)

Los autores del paper descubrieron algo curioso: si le pides al genio que primero escriba un "plan de acción" antes de contar la historia, funciona mucho mejor.

Pero no cualquier plan. Les enseñaron a escribir ese plan como si fuera un receta de cocina o un guion de teatro (a esto lo llaman pseudo-código).

La analogía del Chef:

  • Antes (Instrucción normal): Le dices al chef: "Hazme un pastel de chocolate que se vea bonito, que no sea muy dulce y que tenga fresas". El chef lo intenta, pero a veces el pastel queda muy dulce o las fresas se caen.
  • Ahora (Entrenamiento con Pseudo-código): Antes de tocar la harina, el chef escribe en una libreta:
    1. Mezclar ingredientes secos.
    2. Añadir chocolate (poco).
    3. Verificar dulzura (no pasar del límite).
    4. Decorar con fresas al final.
    5. Hornear.

Al obligar al genio a escribir ese "plan de pasos" primero, su cerebro se organiza. Ya no tiene que adivinar qué hacer; solo tiene que seguir su propio plan.

¿Qué hicieron los investigadores?

  1. El Entrenamiento: En lugar de solo darle preguntas y respuestas, les enseñaron a los modelos a decir: "Primero, voy a escribir el plan en mi libreta (pseudo-código) y luego voy a dar la respuesta".
  2. La Prueba: Lo probaron en 12 pruebas diferentes, desde resolver problemas de matemáticas hasta seguir reglas estrictas de formato (como "no usar mayúsculas").
  3. El Resultado: ¡Funcionó! Los modelos entrenados con este método:
    • Siguen las instrucciones mucho mejor (mejoraron entre un 8% y un 21% en tareas complejas).
    • No se volvieron "tontos" en otras cosas; siguen siendo buenos en matemáticas y en entender el mundo común.
    • Son más robustos: si les pones una instrucción con muchas trampas o reglas, no se confunden.

¿Por qué es importante esto?

Imagina que quieres que un robot te ayude a organizar tu casa.

  • Si le hablas normal, a veces pone los zapatos en la nevera porque no entendió la prioridad.
  • Si le enseñas a pensar como un "programador" (haciendo una lista de pasos lógicos antes de actuar), el robot pone los zapatos en su lugar y la ropa en el armario, tal como pediste.

En resumen:
Este paper nos dice que para que la Inteligencia Artificial sea más obediente y precisa, no necesitamos darle instrucciones más largas y complicadas. Solo necesitamos enseñarle a pensar en "pasos ordenados" (como un código o receta) antes de hablar. Es como darle al genio una brújula y un mapa antes de enviarlo a la aventura. ¡Y funciona de maravilla!