Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un amigo muy inteligente (un modelo de inteligencia artificial) al que le pides resolver un problema de matemáticas.

El Problema: "Hablar demasiado"

Normalmente, para que este amigo sea bueno resolviendo problemas, le decimos: "No me des solo la respuesta, ¡cuéntame paso a paso cómo lo pensaste!". Esto se llama Cadena de Pensamiento (CoT).

El problema es que, al obligarlo a "hablar" (escribir) cada paso, la respuesta se vuelve muy larga. Es como si tu amigo te explicara una receta de cocina detallando cada corte de cebolla y cada segundo de cocción antes de decirte el nombre del plato.

Consecuencia: Tarda más en responder, gasta mucha más energía (computación) y el mensaje final es enorme y costoso de enviar.

La Solución: "Pensar en silencio" (AdaAnchor)

Los autores de este paper proponen una idea genial llamada AdaAnchor. Imagina que, en lugar de obligar a tu amigo a escribir todo el proceso, le das un cuaderno de notas invisible (llamado "vectores ancla") que solo él puede ver y usar.

El Cuaderno Invisible: En lugar de escribir palabras, el modelo escribe y borra ideas en este cuaderno invisible. Puede pensar, corregirse y volver a pensar tantas veces como necesite, pero sin decir una sola palabra al público.
Solo la Respuesta: Una vez que termina de pensar en silencio, solo te dice la respuesta final. ¡Cero palabras de relleno!

El Truco Maestro: "El Semáforo Inteligente" (Halting Adaptativo)

Aquí está la parte más creativa. Antes, estos modelos tenían que pensar un número fijo de veces (por ejemplo, siempre 8 veces), sin importar si el problema era fácil o difícil.

Si el problema era "¿Cuánto es 2+2?", pensar 8 veces era una pérdida de tiempo.
Si el problema era un acertijo complejo, 8 veces quizás no eran suficientes.

AdaAnchor tiene un semáforo inteligente dentro de su cerebro:

Pregunta fácil: El modelo piensa un poco, ve que su "cuaderno invisible" ya no cambia mucho (se ha estabilizado), y el semáforo se pone en verde: "¡Listo! Ya tengo la respuesta". Se detiene rápido.
Pregunta difícil: El modelo sigue pensando, su cuaderno sigue cambiando mucho, así que el semáforo se mantiene en rojo: "Sigue pensando, aún no estás seguro". Sigue trabajando hasta que se estabilice.

¿Por qué es esto increíble?

Imagina que tienes que enviar un paquete por correo:

El método antiguo (CoT): Envías una caja gigante llena de papel de relleno (la explicación larga) y la respuesta escrita en un post-it pequeño. Es caro y lento.
El método nuevo (AdaAnchor): Envías una caja pequeña y ligera que contiene solo la respuesta. El modelo hizo todo el trabajo pesado "dentro de su cabeza" (en el espacio latente) antes de empaquetar.

Los resultados en números simples:

Ahorro de espacio: Reduce el tamaño de la respuesta en un 92-93% (casi no escribe nada).
Ahorro de tiempo: En problemas fáciles, piensa la mitad de las veces que un método fijo, pero sigue siendo igual de inteligente.
Precisión: A veces, al darle al modelo la libertad de pensar más en los problemas difíciles (y menos en los fáciles), acierta más veces que los métodos tradicionales.

En resumen

AdaAnchor es como darle a un genio un cuaderno de notas mágico donde puede pensar en silencio tantas veces como necesite. Si el problema es fácil, cierra el cuaderno rápido; si es difícil, sigue pensando hasta estar seguro. Al final, solo te entrega la respuesta, ahorrando tiempo, dinero y esfuerzo, sin perder la inteligencia.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs" (Pensando en Latentes: Refinamiento Adaptativo de Anclajes para el Razonamiento Implícito en LLMs), presentado en el Latent & Implicit Thinking Workshop @ ICLR 2026.

1. Planteamiento del Problema

El razonamiento en modelos de lenguaje grandes (LLMs) para problemas matemáticos se ha estandarizado mediante el Chain-of-Thought (CoT) explícito, donde el modelo genera una cadena de tokens intermedios antes de dar la respuesta. Aunque efectivo, este enfoque presenta dos limitaciones críticas:

Costo Computacional: La generación de trazas intermedias largas aumenta significativamente la latencia de decodificación y el consumo de tokens, elevando los costos de servicio, especialmente en despliegues de alta concurrencia.
Ineficiencia en Razonamiento Latente: Los enfoques existentes de razonamiento en espacio latente (que realizan cómputo interno sin generar tokens) suelen depender de un número fijo de pasos de refinamiento durante la inferencia. Esto introduce un hiperparámetro que debe ajustarse manualmente para cada modelo y conjunto de datos, lo que a menudo resulta en sobre-cómputo en problemas fáciles y sub-cómputo en problemas difíciles.

2. Metodología: AdaAnchor

Los autores proponen AdaAnchor, un marco de razonamiento implícito que realiza cómputo iterativo "silencioso" mediante el refinamiento de un conjunto compacto de vectores ancla latentes adjuntos a la entrada.

Componentes Clave:

Entrada Aumentada con Anclajes: En lugar de generar tokens de razonamiento, el modelo prepone $m$ vectores de ancla aprendibles ( $A^{(t)}$ ) a las embeddings de entrada del token. Estos anclajes actúan como un estado latente de baja dimensión y reutilizable.
Refinamiento Iterativo Silencioso:
- El modelo realiza pasadas forward repetidas sobre la secuencia aumentada $[P(A^{(t)}); \text{Emb}(x)]$ .
- En cada iteración $t$ , los estados ocultos correspondientes a las posiciones de los anclajes se extraen y se utilizan para actualizar los vectores de ancla mediante una regla de actualización suavizada:
  $A^{(t+1)} \leftarrow (1 - \beta)A^{(t)} + \beta A^{(t+1)}_{\text{new}}$
- Este proceso permite que el modelo "piense" internamente sin emitir tokens intermedios, manteniendo la interfaz de salida en formato de "solo respuesta".
Mecanismo de Parada Adaptativa (Adaptive Halting):
- Para evitar el ajuste manual del número de pasos, AdaAnchor implementa una estrategia de parada basada en la estabilidad de los anclajes.
- Se mide la dinámica de convergencia calculando la distancia coseno entre las representaciones medias de los anclajes en iteraciones consecutivas ( $\Delta^{(t)}$ ).
- Regla de parada: El refinamiento se detiene automáticamente cuando la magnitud de actualización de los anclajes cae por debajo de un umbral $\tau$ durante $s$ pasos consecutivos.
- Esto permite una asignación de cómputo por instancia: problemas fáciles terminan rápidamente, mientras que los difíciles continúan refinándose hasta alcanzar la convergencia o el límite de presupuesto máximo ( $K_{max}$ ).

3. Contribuciones Clave

Marco de Razonamiento Implícito Eficiente: Introduce un mecanismo donde el cómputo multi-paso ocurre en un estado latente compacto (anclajes) en lugar de en la generación de tokens, reduciendo drásticamente la longitud de salida.
Parada Adaptativa sin Hiperparámetros Fijos: Propone un criterio de parada basado en la estabilidad de los anclajes que elimina la necesidad de ajustar el número fijo de pasos de refinamiento para cada dataset, optimizando automáticamente el uso de recursos.
Mejora en la Compensación Precisión-Eficiencia: Demuestra que es posible lograr ganancias de precisión significativas sobre métodos de respuesta directa (No CoT) y métodos de pasos fijos, con un costo de tokens de salida mínimo.

4. Resultados Experimentales

El método se evaluó en tres benchmarks de problemas matemáticos: GSM8K, SVAMP y MultiArith, utilizando modelos base pequeños (Qwen2.5-1.5B y Llama-3.2-1B).

Precisión vs. Pasos Fijos: AdaAnchor con parada adaptativa superó al refinamiento latente de pasos fijos (con $K=8$ ) en precisión, logrando mejoras de hasta 5%.
Eficiencia de Pasos: Bajo el mismo presupuesto máximo de pasos, la versión adaptativa redujo el número promedio de iteraciones de refinamiento latente en un 48–60%, asignando más cómputo solo a las instancias difíciles.
Reducción de Tokens: En comparación con el razonamiento CoT explícito (basado en tokens), AdaAnchor redujo el número de tokens generados en un 92–93%, manteniendo una precisión competitiva.
Comparación con Baselines:
- Superó consistentemente a la generación directa sin razonamiento (No CoT) con ganancias de precisión relativas del 23–64% dependiendo del modelo.
- Superó a la variante de pasos fijos en eficiencia sin sacrificar precisión.

5. Significado e Impacto

El trabajo de AdaAnchor es significativo porque aborda el cuello de botella de la eficiencia en el razonamiento de LLMs. Al mover el cómputo de la generación de tokens explícitos a un estado latente refinado y dinámico, ofrece una nueva compensación (trade-off) entre precisión y costo de inferencia.

Viabilidad de Despliegue: La reducción masiva en el uso de tokens de salida hace que estas técnicas sean mucho más viables para aplicaciones en producción donde el costo y la latencia son críticos.
Adaptabilidad: La capacidad de ajustar el cómputo por instancia sin reentrenar o ajustar hiperparámetros específicos por dataset hace que el método sea más robusto y fácil de implementar en escenarios diversos.
Futuro: Aunque los anclajes aprendidos no son directamente interpretables (una limitación mencionada), el marco sienta las bases para futuros trabajos en control de cómputo implícito y políticas de parada aprendidas.

En resumen, AdaAnchor demuestra que el razonamiento iterativo de alta calidad no requiere trazas verbales largas, sino que puede lograrse de manera eficiente mediante la manipulación inteligente de estados latentes con mecanismos de parada adaptativa.

Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs

El Problema: "Hablar demasiado"

La Solución: "Pensar en silencio" (AdaAnchor)

El Truco Maestro: "El Semáforo Inteligente" (Halting Adaptativo)

¿Por qué es esto increíble?

En resumen

1. Planteamiento del Problema

2. Metodología: AdaAnchor

Componentes Clave:

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature