Autores originales: Yuhao Li, Shengchao Liu

Publicado 2026-05-12

📖 6 min de lectura🧠 Análisis profundo

Autores originales: Yuhao Li, Shengchao Liu

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

La Gran Pregunta: ¿Enseñamos al Modelo o simplemente lo Despertamos?

Imagina que tienes un músico muy talentoso pero ligeramente confundido (el modelo de IA) que ha practicado durante años por su cuenta (pre-entrenamiento). Ahora, quieres enseñarle una nueva canción.

Existe un gran debate en el mundo de la IA sobre cómo les enseñamos.

Método A (SFT): Les haces escuchar una grabación de una interpretación perfecta y dices: "Copia esto exactamente".
Método B (RL): Les dejas tocar, y cada vez que aciertan una nota buena, les das una recompensa. Cada vez que tocan una nota mala, no les das nada.

La creencia común es: El Método A solo hace que imiten lo que ya saben (Imitación), mientras que El Método B les ayuda a descubrir cosas nuevas y asombrosas que nunca sabían que podían hacer (Descubrimiento).

Los autores de este artículo dicen: "Alto. Esa distinción es demasiado simple".

Argumentan que la verdadera pregunta no es cómo enseñas (copiar vs. recompensas), sino qué es lo que realmente estás enseñando. ¿Acabas de ayudar al músico a tocar una canción que ya era capaz de tocar pero seguía fallando? ¿O realmente le diste la capacidad de tocar una canción que físicamente no podía tocar antes?

Ellos llaman a estas dos cosas:

Elucidación de la Capacidad: Despertar una habilidad que ya estaba allí pero dormida.
Creación de la Capacidad: Darle al músico una habilidad totalmente nueva que no tenía.

La Analogía del "Paisaje Energético"

Para explicar esto, los autores utilizan un concepto de física llamado Energía Libre. Imagina que la mente del músico es un paisaje montañoso.

Los Valles (Cuencas): Estas son las canciones fáciles que el músico toca naturalmente. Son profundas, cómodas y fáciles de caer en ellas.
Las Colinas (Colas): Estas son canciones que el músico podría tocar, pero están muy arriba. Se requiere mucho esfuerzo (o muchos intentos) para llegar allí.
Los Muros (Barreras): Estas son canciones separadas por un muro masivo e inescalable. El músico no puede alcanzarlas simplemente caminando; necesita una escalera o un puente.
El Otro Lado del Mundo (No Soportado): Estas son canciones que simplemente no existen aún en el universo del músico.

Cómo Funciona el Entrenamiento en Este Mapa

Tanto "Copiar" (SFT) como "Recompensas" (RL) funcionan inclinando el paisaje.

Si das una recompensa por una canción en un Valle, el valle se hace más profundo. El músico toca esa canción con más frecuencia.
Si das una recompensa por una canción en una Colina, la colina obtiene una rampa. El músico ahora puede subir a esa canción más fácilmente.

El Punto Crucial:
Si la canción ya estaba en un Valle o en una Colina, no has creado una nueva habilidad. Solo has hecho que una habilidad existente sea más fiable. Esto es Elucidación.

Si la canción estaba detrás de un Muro, y tu método de entrenamiento de alguna manera construyó un puente o una escalera para llegar allí, entonces has creado una nueva habilidad. Esto es Creación.

Las Cuatro Zonas del Aprendizaje

El artículo desglosa el post-entrenamiento en cuatro escenarios específicos basados en este mapa:

1. La "Zona Segura" (Elucidación Cubierta por Demostración)

El Escenario: El músico ya conoce la canción perfectamente, pero a veces olvida la letra. Les muestras la partitura (demostraciones).
El Resultado: Dejan de olvidar. No aprendieron una canción nueva; solo estabilizaron una antigua.
La Conclusión: Ya sea que uses copiar o recompensas, si la respuesta ya era fácil de encontrar, solo estás puliendo una gema tosca, no creando una nueva.

2. La "Gema Oculta" (Reponderación de la Cola)

El Escenario: El músico conoce un solo de jazz complejo, pero solo lo toca una vez cada millón de intentos. Está escondido en las "Colinas".
El Resultado: Usas un sistema de recompensas para decir: "¡Guau, ese solo de jazz fue genial!". De repente, empiezan a tocarlo todo el tiempo.
La Conclusión: Parece magia porque el rendimiento saltó hacia arriba. Pero el músico podía tocarlo todo el tiempo; solo necesitaba un empujón para encontrarlo. Esto sigue siendo Elucidación, no creación.

3. El "Constructor de Puentes" (Descubrimiento de Cruce de Barreras)

El Escenario: El músico necesita tocar una canción que requiere una secuencia de pasos que nunca han tomado juntos. Está detrás de un muro.
El Resultado: No solo das una recompensa al final. Das recompensas por los pasos a lo largo del camino, o les permites usar una herramienta (como una escalera) para cruzar el vacío.
La Conclusión: Esto es Creación de Capacidad. El entrenamiento no solo inclinó la colina; cambió el terreno para que el músico pudiera llegar a un lugar del que estaba previamente bloqueado.

4. La "Zona Imposible" (Régimen No Soportado)

El Escenario: Le pides al músico que toque una canción que requiere un violín, pero él solo tiene una guitarra.
El Resultado: Ninguna cantidad de copiar o recompensar ayudará. La "energía" requerida para tocar esa canción es infinita.
La Conclusión: No puedes "crear" una capacidad aquí solo con entrenamiento. Necesitas nueva información, un nuevo instrumento o un modelo completamente diferente.

Por Qué Esto Importa

El artículo argumenta que a menudo estamos confundidos porque miramos el método (SFT vs. RL) en lugar del mecanismo.

Mito: "RL es magia porque crea nuevas habilidades".
Realidad: RL solo crea nuevas habilidades si se combina con herramientas, búsqueda o interacción que ayuden al modelo a cruzar "muros". Si RL solo recompensa al modelo por cosas que ya podía hacer, es solo Elucidación.
Mito: "SFT es débil porque solo copia".
Realidad: Si los datos de "copiar" provienen de una fuente súper inteligente (como un motor de búsqueda o una IA más fuerte), SFT puede enseñar al modelo cosas que nunca supo, actuando efectivamente como Creación.

La Conclusión

Cuando vemos que una IA mejora, no deberíamos preguntar simplemente: "¿Usaron Aprendizaje por Refuerzo?".

Deberíamos preguntar: "¿Simplemente hicieron a la IA mejor en cosas que ya podía hacer, o realmente le dieron a la IA la capacidad de hacer algo que no podía hacer antes?"

El artículo sugiere que la mayor parte del tiempo, solo estamos despertando habilidades que ya estaban allí (Elucidación), y debemos tener mucho cuidado antes de afirmar que hemos inventado verdaderas nuevas capacidades (Creación).

Resumen Técnico: Distinguir la Elicitación de Capacidades de la Creación de Capacidades en el Entrenamiento Posterior

1. Declaración del Problema

El discurso predominante en el entrenamiento posterior de modelos de lenguaje grandes (LLM) suele enmarcar la distinción entre el Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo (RL) como una dicotomía entre imitación (SFT) y descubrimiento (RL). Este artículo argumenta que dicha distinción es demasiado gruesa y oscurece el mecanismo fundamental de cómo el entrenamiento posterior altera el comportamiento del modelo.

El problema central consiste en determinar si un procedimiento de entrenamiento posterior:

Elicita capacidades: Aumenta la probabilidad de comportamientos que el modelo base preentrenado ya podía producir, pero lo hacía de manera poco fiable.
Crea capacidades: Expande el conjunto de comportamientos a los que el modelo puede llegar prácticamente, permitiendo resultados que antes eran inaccesibles.

Los autores sostienen que etiquetar un método como "SFT" o "RL" no determina su mecanismo de capacidad. En cambio, el mecanismo depende de la fuente de las señales de entrenamiento (demonstraciones frente a recompensas), la generación de comportamientos candidatos y si el proceso expande el soporte accesible del modelo.

2. Metodología y Marco Teórico

2.1 La Perspectiva de la Energía Libre

Los autores formalizan el entrenamiento posterior utilizando un marco de energía libre, extrayendo una analogía con la física estadística ($F = E - TS$). Interpretan los objetivos del entrenamiento posterior como la minimización de una energía libre efectiva:
$F_x(q) = \mathbb{E}_{y \sim q(y|x)}[E(x, y)] + \beta \text{KL}[q(y|x) \parallel p_0(y|x)]$
Donde:

$p_0(y|x)$ es la distribución de referencia preentrenada.
$q(y|x)$ es la distribución post-entrenada.
$E(x, y)$ es la energía efectiva derivada de señales externas.
$\beta$ actúa como una temperatura inversa, controlando la compensación entre explotar comportamientos preferidos y mantener la diversidad (restricción KL).

Principales Conclusiones Teóricas:

SFT como Energía: El SFT minimiza la log-verosimilitud negativa en demostraciones. Esto equivale a definir una energía efectiva $E_{SFT}(x, y) = -\beta \log \frac{p_{demo}(y|x)}{p_0(y|x)}$ . Si un comportamiento está en la distribución de demostraciones pero tiene probabilidad cero en el modelo base ( $p_0 \to 0$ ), la energía se vuelve singular, rompiendo la interpretación de la reponderación local.
RL como Energía: El RL maximiza recompensas sujeto a una restricción KL. Esto corresponde a $E_{RL}(x, y) = -R(x, y)$ . La distribución óptima es una reponderación de Boltzmann de la referencia: $q^*(y|x) \propto p_0(y|x) \exp(R(x, y)/\beta)$ .
Reponderación Local: Cuando las actualizaciones permanecen cercanas al modelo de referencia (restricción KL fuerte), el efecto principal es la reponderación local de la distribución existente, no la creación de nuevos comportamientos.

2.2 Soporte Accesible

Para operacionalizar la distinción entre elicitación y creación, el artículo introduce el soporte accesible: el conjunto de comportamientos que un modelo puede producir prácticamente bajo presupuestos finitos de muestreo, optimización y divergencia. Este concepto va más allá del soporte matemático estricto (probabilidad no nula) hacia la alcanzabilidad práctica.

Los autores categorizan el paisaje de comportamientos en cuatro regímenes basados en la relación entre el comportamiento objetivo y el soporte accesible del modelo base:

Elicitación Cubierta por Demostraciones: El comportamiento objetivo se encuentra en una "cuenca" de alta probabilidad del modelo base y está cubierto por demostraciones. El entrenamiento posterior estabiliza este comportamiento existente.
Reponderación de la Cola: El comportamiento objetivo se encuentra en la "cola" de la distribución del modelo base (raro bajo decodificación codiciosa pero alcanzable bajo presupuestos de muestreo más grandes, como best-of-N). El entrenamiento posterior amplifica estos comportamientos raros pero alcanzables.
Descubrimiento de Cruce de Barreras: El comportamiento objetivo está separado de las salidas típicas del modelo base por "barreras" (secuencias de pasos intermedios de baja probabilidad). Alcanzar estos requiere cambiar el proceso de generación de trayectorias (por ejemplo, mediante búsqueda, uso de herramientas o supervisión de procesos), no solo reponderar.
Regímenes No Soportados: El comportamiento objetivo se encuentra fuera del soporte del modelo base ( $p_0(y|x) = 0$ ). La energía efectiva se vuelve divergente. El entrenamiento posterior no puede crear estas capacidades sin nueva información, herramientas o cambios arquitectónicos.

3. Contribuciones Clave

Reencuadre del Debate SFT vs. RL: El artículo desplaza el enfoque de las etiquetas algorítmicas (SFT/RL) hacia el mecanismo de cambio de capacidad (elicitación vs. creación). Argumenta que el SFT puede elicitar nuevos comportamientos si las demostraciones son de alta calidad (cubriendo la cola), y que el RL puede ser una mera reponderación si está restringido por una fuerte penalización KL.
Marco Diagnóstico: Al aplicar la perspectiva de energía libre, los autores proporcionan una herramienta matemática para diagnosticar si las ganancias de rendimiento provienen de la reponderación local (dentro del soporte accesible) o de la expansión del soporte (cruce de barreras).
Los Cuatro Regímenes: El artículo establece una taxonomía para los resultados del entrenamiento posterior, aclarando que la "creación de capacidades" no es una propiedad binaria de un método, sino una propiedad de la interacción entre la señal de entrenamiento, el proceso de generación de candidatos y la alcanzabilidad del modelo base.
Clarificación de la "Creación": Los autores argumentan que la verdadera creación de capacidades (Descubrimiento de Cruce de Barreras) requiere mecanismos que alteren el proceso de generación de trayectorias (por ejemplo, búsqueda, interacción, uso de herramientas), en lugar de la maximización aislada de recompensas.

4. Resultados y Afirmaciones

El artículo no presenta nuevos puntos de referencia empíricos, sino que ofrece un análisis diagnóstico de los fenómenos existentes de entrenamiento posterior:

El SFT no es inherentemente débil: Si las demostraciones contienen trayectorias generadas por búsqueda o modelos más fuertes, el SFT puede elicitar comportamientos que el modelo base produce raramente. La limitación del SFT es la cobertura de la distribución de demostraciones, no el objetivo supervisado en sí mismo.
El RL no es inherentemente creativo: Si el RL se aplica con fuertes restricciones KL y sin mecanismos de búsqueda, simplemente repondera los comportamientos de la cola del modelo base. Las grandes ganancias en puntos de referencia en este régimen reflejan reponderación de la cola, no la creación de nuevas capacidades.
El Límite de la Singularidad: La transición de la elicitación a la creación está marcada por una singularidad en la formulación de energía libre. Cuando $p_0(y|x) \to 0$ para un comportamiento requerido, la visión de reponderación local se desmorona, indicando que el comportamiento está fuera del soporte accesible.

5. Significado y Alcance

El artículo afirma que distinguir entre elicitación de capacidades y creación de capacidades es esencial para una investigación rigurosa del entrenamiento posterior.

Afirmaciones Modestas: Los autores declaran explícitamente que no afirman que el SFT y el RL sean idénticos, ni que la dinámica de optimización sea irrelevante. En cambio, argumentan que la dinámica de optimización debe interpretarse en relación con el régimen (por ejemplo, en regímenes de cruce de barreras, la optimización debe acoplarse con cambios en la generación de trayectorias).
Alcance: El marco es diagnóstico. Aclara que las mejoras en el rendimiento por sí solas son evidencia insuficiente de creación de capacidades. Para afirmar creación, se debe demostrar que el método expandió el espacio de comportamientos alcanzable del modelo, a menudo mediante búsqueda, interacción o nueva información, en lugar de simplemente reponderar probabilidades existentes.
Dirección Futura: El artículo llama a trabajos futuros para distinguir explícitamente entre estos regímenes. Los investigadores deberían informar no solo sobre las ganancias de rendimiento, sino también si esas ganancias reflejan la estabilización de cuencas, la amplificación de colas o el cruce de barreras.

En resumen, el artículo postula que la pregunta central en el entrenamiento posterior no es "¿SFT o RL?", sino "¿Este método repondera lo que ya es alcanzable, o expande lo que es alcanzable?".

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective