I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este paper es como un manual de instrucciones para entender cómo piensan los robots (las Inteligencias Artificiales) cuando leen y escriben.

Aquí tienes la explicación, traducida a un lenguaje sencillo y con analogías divertidas:

🧠 El Gran Misterio: ¿Qué hay dentro de la "caja negra"?

Sabemos que los modelos de lenguaje (como el que usas ahora) son geniales. Pueden traducir, escribir poemas y responder preguntas. Pero, ¿cómo lo hacen? Su "cerebro" interno es una caja negra llena de números que nadie entiende.

Los científicos han notado algo curioso: dentro de esos números, el modelo parece guardar conceptos humanos. Por ejemplo, si le preguntas sobre "amor" o "política", el modelo activa una parte específica de su cerebro. Pero... ¿cómo aprendió eso si solo le pedimos que adivine la siguiente palabra?

🎲 La Teoría: "Adivino, luego existo"

El título del paper dice: "Adivino, luego existo". Es una broma con la famosa frase de Descartes ("Pienso, luego existo").

La idea central es esta:
Imagina que el modelo es un chef que nunca ha salido de la cocina. Solo sabe cocinar porque le han dado millones de recetas y le han pedido: "¿Qué ingrediente falta en este plato?".

Si el plato es una ensalada, el chef aprende que "tomate" va bien con "lechuga".
Si el plato es un pastel, aprende que "harina" va con "huevos".

El paper demuestra que, aunque el chef solo intenta adivinar el ingrediente siguiente, sin darse cuenta, ha aprendido a entender los conceptos detrás de los ingredientes (como "frescura", "dulzura" o "saludable").

🔍 El Descubrimiento: El Mapa del Tesoro

Los autores crearon una teoría matemática (un modelo) para explicar esto. Su conclusión es sorprendente:

El cerebro del modelo es un mapa: Las representaciones internas del modelo (esos números) son como un mapa lineal.
La línea recta: Si quieres cambiar el "género" de una palabra en la mente del modelo (de "rey" a "reina"), no necesitas reprogramarlo todo. Solo tienes que deslizar una línea recta en su cerebro. Es como mover un dial de volumen: subes el volumen de "femenino" y bajas el de "masculino".
La magia de la probabilidad: El paper prueba que el modelo, al adivinar la siguiente palabra, está calculando matemáticamente la probabilidad de que ciertos conceptos (como "sentimiento positivo" o "tema de deportes") estén presentes en la frase. Y lo hace de una manera tan ordenada que podemos leer esos conceptos como si fueran líneas en un gráfico.

🛠️ La Aplicación Práctica: El "Desenredador" de Ideas

Aquí es donde entra la parte más útil. Los investigadores usan esta teoría para mejorar una herramienta llamada Autoencoders Esparsos (SAEs).

El problema: Imagina que el cerebro del modelo es un cajón desordenado lleno de miles de ideas mezcladas. A veces, una sola "célula" del cerebro piensa en "perros" y "pelotas" al mismo tiempo. Es confuso.
La solución: Quieren separar esas ideas. Quieren que una célula piense solo en "perros" y otra solo en "pelotas".
La nueva herramienta: Usando la teoría del paper, crearon un nuevo tipo de "desenredador" (llamado SAE Estructurado). En lugar de solo pedirle al modelo que sea "poco denso" (que use pocas células), le pidieron que respete la estructura de las ideas.
- Analogía: Es como si en lugar de tirar los juguetes al suelo y esperar que se ordenen solos, les dijéramos: "Los bloques de construcción van en esta caja, y los coches en esa otra".

📊 Los Resultados: ¿Funcionó?

Sí. Probaron esto con modelos reales (como Llama y Pythia) y con datos simulados.

En simulación: Cuando el modelo aprendía a adivinar palabras, efectivamente estaba aprendiendo los conceptos ocultos tal como predijo la teoría.
En la vida real: El nuevo "desenredador" (SAE Estructurado) fue mejor separando las ideas que los métodos anteriores. Logró identificar conceptos humanos con mayor precisión.

🚀 En Resumen

Este paper nos dice tres cosas importantes:

No es magia: Los modelos aprenden conceptos humanos porque la matemática de "adivinar la siguiente palabra" los obliga a entender la estructura del mundo.
Es lineal: Podemos entender y manipular lo que piensa el modelo moviendo líneas rectas en su cerebro.
Podemos limpiarlo: Ahora tenemos una forma mejor y más teórica de "limpiar" el cerebro del modelo para que sus ideas sean más claras, transparentes y fáciles de entender para los humanos.

Es como si hubiéramos encontrado la llave para abrir la caja negra y ver que, dentro, todo está ordenado en estanterías lógicas, esperando a ser leído.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "I PREDICT THEREFORE I AM: IS NEXT TOKEN PREDICTION ENOUGH TO LEARN HUMAN-INTERPRETABLE CONCEPTS FROM DATA?", presentado en ICLR 2026.

1. Problema y Motivación

Aunque existe evidencia empírica sólida de que las representaciones internas de los Grandes Modelos de Lenguaje (LLMs) codifican conceptos interpretables por humanos (como sentimiento, estilo o género), los mecanismos teóricos que explican cómo emergen estas representaciones a través del entrenamiento por predicción del siguiente token siguen siendo un misterio.

La literatura anterior ha intentado abordar esto mediante modelos de variables latentes, pero a menudo con limitaciones significativas:

Asumen que las variables latentes y observadas son continuas, lo cual no se ajusta bien a la naturaleza discreta del lenguaje.
Requieren que la mapeo de las variables latentes a los datos observados sea invertible, una suposición irrealista dada la complejidad y la pérdida de información en el lenguaje natural.
No ofrecen una conexión teórica rigurosa entre la función de pérdida de predicción y la recuperación de las variables latentes subyacentes.

El objetivo de este trabajo es establecer un marco teórico que demuestre si y cómo la predicción del siguiente token permite a los LLMs aprender y representar conceptos latentes discretos, incluso bajo condiciones de mapeo no invertible.

2. Metodología y Marco Teórico

Los autores proponen un modelo de variables latentes novedoso diseñado específicamente para la generación de texto:

Modelado Discreto: A diferencia de trabajos previos, asumen que tanto las variables latentes $c$ (conceptos) como las variables observadas $x$ (contexto) e $y$ (token siguiente) son discretas.
Relaxación de Invertibilidad: No requieren que el mapeo de $c$ a $(x, y)$ sea invertible. Introducen un término de error $\epsilon$ para definir una invertibilidad aproximada, reconociendo que múltiples combinaciones de conceptos pueden generar el mismo token observado.
Condiciones de Identificabilidad: Para probar la recuperabilidad de las variables latentes, establecen tres condiciones clave:
1. Condición de Diversidad: Existe un conjunto suficientemente diverso de tokens $y$ tales que sus vectores de representación forman un conjunto linealmente independiente.
2. Condición de Variación Total (TV): La distribución posterior $p(c|y)$ cambia lentamente entre tokens adyacentes.
3. Condición de Cobertura: Las distribuciones posteriores condicionales no colapsan y difieren por factores logarítmicos acotados.

Resultado Teórico Principal (Teorema 3.1):
Bajo estas condiciones, demuestran que las representaciones aprendidas por el LLM ( $f_x(x)$ ) a través de la predicción del siguiente token son aproximadamente una transformación lineal del logaritmo de la distribución posterior de las variables latentes dadas las entradas:
$f_x(x) \approx A [\log p(c_i | x)]_i + b$
Donde $A$ es una matriz lineal y $b$ es una constante. Esto implica que el modelo aprende esencialmente las probabilidades logarítmicas de los conceptos latentes.

3. Contribuciones Clave

Fundamentación Teórica de la Hipótesis de Representación Lineal: Proporcionan una prueba rigurosa de que la "hipótesis de representación lineal" (la idea de que los conceptos se codifican linealmente en los LLMs) surge naturalmente de la optimización de la predicción del siguiente token sobre un modelo generativo de variables latentes discretas. Unifican fenómenos observados empíricamente como:
- Conceptos como Direcciones: Las diferencias vectoriales entre pares de palabras (ej. "hombre" - "mujer") corresponden a cambios en la probabilidad posterior de un concepto latente.
- Manipulabilidad: La adición de vectores de dirección (steering vectors) modifica efectivamente la distribución posterior del concepto.
- Sondaje Lineal (Linear Probing): La capacidad de clasificar conceptos linealmente se deriva directamente de la estructura lineal de la representación.
Estrategia de Evaluación para Autoencoders Dispersos (SAEs):
- Proponen un nuevo método de evaluación para SAEs basado en la teoría. Dado que las representaciones del LLM son linealmente relacionadas con $\log p(c|x)$ , los SAEs deberían aprender características $z$ que sean linealmente correlacionadas con estas probabilidades.
- Utilizan pares contrafactuales (datos que difieren solo en un concepto binario) para entrenar clasificadores lineales y obtener estimaciones de $p(c|x)$ , las cuales sirven como "verdad fundamental" para evaluar qué tan bien un SAE ha desacoplado los conceptos.
Propuesta de SAEs Estructurados:
- Observando que las variables latentes en el texto tienen dependencias complejas, proponen SAEs Estructurados. Estos incorporan regularización de bajo rango (norma nuclear) además de la dispersidad estándar, para capturar las interdependencias entre conceptos, superando las limitaciones de la dispersidad pura.

4. Resultados Empíricos

Los autores validan sus hallazgos en datos simulados y en modelos reales (Pythia, Llama, DeepSeek-R1):

Datos Simulados: En entornos sintéticos donde se conocen las variables latentes, la precisión de clasificación lineal de las representaciones aumenta a medida que la mapeo de latente a observable se vuelve más invertible, confirmando el Teorema 3.1.
Validación en LLMs Reales:
- Utilizando 27 pares contrafactuales (de Park et al., 2023), demostraron que el producto de la matriz de diferencias de representaciones ( $A_s$ ) y la matriz de pesos del clasificador lineal ( $W_s$ ) aproxima la matriz identidad. Esto confirma empíricamente que las direcciones de los conceptos y los clasificadores lineales están alineados teóricamente.
- Los resultados se mantienen consistentes en familias de modelos como LLaMA-2, LLaMA-3 y DeepSeek-R1.
Evaluación de SAEs:
- Compararon variantes de SAEs (top-k, batch-top-k, p-annealing) con su propuesta de SAE Estructurado.
- El SAE estructurado logró consistentemente una mayor correlación de Pearson entre sus características latentes y las probabilidades de los conceptos (estimadas por sondas lineales), superando a los métodos basados solo en dispersidad.
- Esto demuestra que la regularización estructurada ayuda a desacoplar mejor los conceptos semánticos.

5. Significado e Impacto

Este trabajo es significativo por varias razones:

Puente Teórico-Práctico: Cierra la brecha entre la teoría de aprendizaje de representaciones causales y la práctica de los LLMs, explicando por qué los modelos de predicción de tokens desarrollan estructuras lineales interpretables.
Nueva Perspectiva sobre la Invertibilidad: Desafía la suposición dominante en el aprendizaje de representaciones causales de que se requiere una mapeo invertible estricto, mostrando que la identificabilidad aproximada es suficiente para la linealidad.
Herramienta para la Interpretabilidad: Ofrece un marco teórico sólido para evaluar y mejorar las herramientas de interpretabilidad (como los SAEs), sugiriendo que la inclusión de estructuras de dependencia (regularización estructurada) es crucial para desentrañar conceptos complejos en modelos de lenguaje.
Comprensión de la Cognición: Sugiere que los LLMs no aprenden el mundo físico directamente, sino que imitan el "modelo del mundo" comprimido y abstracto de los humanos, codificado en el lenguaje, lo que explica su éxito en tareas alineadas con la cognición humana.

En resumen, el paper demuestra que la predicción del siguiente token es suficiente para aprender conceptos latentes discretos y que las representaciones resultantes poseen una estructura lineal fundamental que puede ser explotada teóricamente y mejorada mediante arquitecturas de autoencoders estructurados.

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

🧠 El Gran Misterio: ¿Qué hay dentro de la "caja negra"?

🎲 La Teoría: "Adivino, luego existo"

🔍 El Descubrimiento: El Mapa del Tesoro

🛠️ La Aplicación Práctica: El "Desenredador" de Ideas

📊 Los Resultados: ¿Funcionó?

🚀 En Resumen

1. Problema y Motivación

2. Metodología y Marco Teórico

3. Contribuciones Clave

4. Resultados Empíricos

5. Significado e Impacto

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models