Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Este estudio demuestra que, desde una perspectiva de datos, el Ajuste Fino por Refuerzo (RFT) preserva mejor el conocimiento previo de los modelos de lenguaje multimodal que el Ajuste Fino Supervisado (SFT) al alinear las actualizaciones con la distribución de probabilidad base, mitigando así el olvido catastrófico mediante dinámicas de aprendizaje menos intrusivas.

Zhihao Zhang, Qiaole Dong, Qi Zhang, Jun Zhao, Enyu Zhou, Zhiheng Xi, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Mingqi Wu, Yanwei Fu, Tao Ji, Tao Gui, Xuanjing Huang, Kai Chen

Publicado 2026-03-06
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un cerebro digital (un modelo de Inteligencia Artificial) que ya sabe muchas cosas: puede reconocer gatos, resolver problemas de matemáticas básicas y entender lo que ves en una foto. Es como un estudiante muy inteligente que ya ha pasado años en la universidad.

El problema es: ¿qué pasa si le pedimos que aprenda algo completamente nuevo y extraño, como armar un rompecabezas de una imagen que nunca ha visto antes?

Este paper (artículo científico) compara dos formas de enseñarle a este cerebro digital y descubre algo muy interesante sobre cómo olvida lo que ya sabía.

Aquí te lo explico con una analogía sencilla:

1. Los Dos Métodos de Enseñanza

Imagina que quieres que tu estudiante aprenda a armar ese rompecabezas nuevo. Tienes dos opciones:

  • Opción A: El Método "SFT" (Aprendizaje por Supervisión Directa).
    Es como si un profesor le diera al estudiante la solución exacta y le dijera: "Mira, la pieza 1 va aquí, la 2 allá". El estudiante memoriza la respuesta rápidamente.

    • El resultado: ¡Aprende muy rápido! En pocas horas ya sabe armar el rompecabezas.
    • El problema: Para memorizar esto, el estudiante borra de su memoria todo lo que sabía antes. De repente, olvida cómo reconocer gatos o resolver matemáticas. Es como si, para aprender un nuevo truco de magia, tuviera que borrar todo su conocimiento anterior. A esto los científicos le llaman "Olvido Catastrófico".
  • Opción B: El Método "RFT" (Aprendizaje por Refuerzo).
    Aquí no le das la solución. Le dices: "Prueba a armarlo. Si lo haces bien, te doy una estrella (recompensa). Si te equivocas, inténtalo de nuevo". El estudiante debe explorar, fallar, pensar y descubrir por sí mismo cómo encajan las piezas.

    • El resultado: Le toma mucho más tiempo (días en lugar de horas) aprender a armar el rompecabezas.
    • La ventaja: Como él mismo descubrió la lógica, no necesita borrar lo que ya sabía. Sigue siendo un experto en gatos y matemáticas mientras aprende el nuevo truco.

2. El Gran Descubrimiento: No es el Método, son los "Apuntes"

Los autores se preguntaron: "¿Por qué el método de exploración (RFT) no borra la memoria, mientras que el método de memorización (SFT) sí lo hace?".

Al principio, pensaron que era por la forma en que se calculan las matemáticas del aprendizaje. Pero descubrieron que la clave está en los "apuntes" o datos que se usan para enseñar.

  • Los apuntes del método SFT (Soluciones directas): Son como copiar y pegar respuestas de un libro que el estudiante no entiende. Es información que choca violentamente con lo que su cerebro ya sabe, por eso tiene que "limpiar" su cerebro para hacer espacio.
  • Los apuntes del método RFT (Exploración propia): Cuando el estudiante explora y encuentra la solución por sí mismo, genera un razonamiento (un "pensamiento paso a paso") que ya encaja con su forma natural de pensar. Es como si el estudiante ya tuviera una semilla de esa idea en su mente y solo necesitaba regarla.

3. La Magia: ¡Usar los "Apuntes" del RFT para el SFT!

Aquí viene la parte más genial del paper. Los investigadores se dieron cuenta de que si toman los pensamientos y razonamientos que el estudiante generó mientras aprendía con el método lento (RFT), y se los dan al estudiante para que los memorice con el método rápido (SFT)... ¡Funciona!

  • El estudiante aprende rápido (gracias a SFT).
  • Pero no olvida nada (porque los apuntes que memoriza son los que él mismo generó y que encajan con su mente).

Es como si el estudiante escribiera sus propios apuntes de clase (lentos pero comprensibles) y luego el profesor le dijera: "Perfecto, ahora memoriza tus propios apuntes". ¡Aprende rápido y no olvida nada!

4. La Analogía de la "Perplejidad" (El Nivel de Sorpresa)

Para explicar por qué pasa esto, usan un concepto llamado "perplejidad" (que es como medir cuánto se sorprende el cerebro ante algo).

  • Cuando le das al estudiante una solución que él nunca habría imaginado (como las soluciones directas de GPT-4o), su cerebro se sorprende mucho (alta perplejidad). Es como si le hablaras en un idioma alienígena. Para entenderlo, tiene que cambiar su estructura mental, borrando lo anterior.
  • Cuando el estudiante explora y encuentra la solución, esa solución no lo sorprende tanto (baja perplejidad). Es como si el cerebro dijera: "Ah, esto tiene sentido, encaja con lo que ya sé". Por eso, al aprenderlo, no necesita destruir sus conocimientos previos.

En Resumen: ¿Qué nos enseña este paper?

  1. El algoritmo no es el héroe: No importa tanto si usas "Supervisión" o "Refuerzo" en sí mismos.
  2. Los datos son los héroes: Lo importante es de dónde vienen los datos que usas para entrenar.
  3. La solución: Si quieres que una IA aprenda cosas nuevas sin olvidar lo viejo, no le des respuestas de un libro. Haz que explore y piense primero, y luego usa sus propios pensamientos para entrenarla.

Es como decir: "No te enseñe a nadar dándote la fórmula de la flotación. Déjame que te ahogues un poquito, que descubras cómo flotar, y luego te escribiré un libro sobre cómo lo hiciste tú. Así aprenderás rápido y no olvidarás cómo caminar".

¡Es un paso gigante para crear inteligencias artificiales que sigan aprendiendo toda la vida sin volverse locas!