Think, But Don't Overthink: Reproducing Recursive Language Models

Este estudio reproduce y extiende el marco de Modelos de Lenguaje Recursivos (RLM), revelando que, aunque la recursión de profundidad 1 mejora el razonamiento complejo, aumentar la profundidad o aplicarla a tareas simples provoca un "sobre-pensamiento" que degrada el rendimiento y eleva exponencialmente el tiempo de ejecución y los costos.

Daren Wang

Publicado 2026-03-04
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

🧠 "Piensa, pero no te pases de la cuenta": El experimento de los Modelos de Lenguaje Recursivos

Imagina que tienes un asistente muy inteligente (un Modelo de Lenguaje o LLM) al que le pides resolver problemas. Normalmente, este asistente tiene una "memoria de trabajo" limitada; si le das un libro entero para leer, se le olvida el principio antes de llegar al final.

Los autores de un estudio anterior propusieron una idea genial: ¿Qué pasa si le damos al asistente una libreta externa (un entorno de programación) donde pueda escribir notas, consultarlas y llamarse a sí mismo para resolver partes del problema? A esto lo llamaron Modelos de Lenguaje Recursivos (RLM).

El estudio original dijo: "¡Funciona increíble! Hagamos que el asistente se llame una vez para ayudar".

Pero el autor de este nuevo paper (Daren Wang) se preguntó: "¿Y si le decimos que se llame a sí mismo dos veces? ¿O tres? ¿Cuánto 'pensamiento' es demasiado?".

Aquí está lo que descubrió, explicado con analogías de la vida real:

1. La Analogía del "Abogado vs. El Buzón"

Para entender los resultados, imagina dos tipos de tareas:

  • La Tarea Fácil (El Buzón): Tienes que encontrar una carta específica en un montón de 100,000 cartas.

    • Sin ayuda: El asistente busca rápido y la encuentra.
    • Con ayuda (RLM nivel 1): El asistente decide organizar el montón, hacer un índice y luego buscar. ¡Funciona bien!
    • Con demasiada ayuda (RLM nivel 2): El asistente decide escribir un libro sobre cómo se organizan las cartas, llama a otro abogado para que revise el índice, y luego llama a un tercero para que verifique si el segundo abogado está bien.
    • Resultado: En lugar de encontrar la carta en 3 segundos, tardan 5 minutos y, para colmo, el asistente se confunde tanto que te da una carta que no estaba en el montón (alucinación). ¡Se complicó lo simple!
  • La Tarea Difícil (El Laberinto): Tienes que resolver un acertijo matemático complejo que requiere leer todo un libro de 1,000 páginas.

    • Sin ayuda: El asistente se pierde en la página 50 y olvida el principio.
    • Con ayuda (RLM nivel 1): El asistente lee un capítulo, hace un resumen, lo guarda en su libreta y sigue. ¡Magia! Resuelve el acertijo que antes no podía.
    • Con demasiada ayuda (RLM nivel 2): El asistente se vuelve paranoico. Lee un capítulo, llama a un sub-asistente, el sub-asistente llama a otro, todos empiezan a discutir entre ellos, se olvidan de la pregunta original y el sistema se bloquea.

2. Lo que descubrieron (Los Hallazgos Clave)

  • El "Sobrepensamiento" (Overthinking):
    Cuando el asistente se llama a sí mismo dos veces (profundidad 2), empieza a pensar demasiado. En lugar de resolver el problema, empieza a generar excusas, a repetir lo mismo una y otra vez o a inventar datos que no existen (como decir que los números mágicos de un texto son los números atómicos de la física, aunque el texto no hable de física).

    • Metáfora: Es como si alguien te preguntara "¿Qué hora es?" y tú, en lugar de mirar el reloj, te pusieras a escribir una tesis sobre la historia de la medición del tiempo, llamar a un relojero para que verifique tus cálculos y luego te olvides de responder la hora.
  • La Explosión de Tiempo y Dinero:
    Hacer que el asistente piense un poco más (nivel 1) es útil. Pero hacerlo pensar "demasiado" (nivel 2) es un desastre económico y temporal.

    • El dato: Una tarea que tomaba 3.6 segundos pasó a tomar 344 segundos (casi 6 minutos).
    • El costo: El precio de la factura de la API (los "tokens" o palabras que consume) se disparó. Es como si fueras a comprar una manzana y, en lugar de ir a la tienda, contrataras a un equipo de logística para que te la traiga desde otro país.
  • El Colapso del Formato:
    A veces, el asistente se confunde tanto entre "escribir notas para sí mismo" y "hablar contigo" que te devuelve código de programación en lugar de la respuesta.

    • Ejemplo: En vez de decirte "La respuesta es 5", te dice: print("La respuesta es 5"). ¡Es como si un camarero te trajera la comida en el plato de cocina sin servilleta!

3. La Conclusión Final

El mensaje principal de este paper es: "Piensa, pero no te pases de la cuenta".

  • Lo bueno: Usar un poco de recursividad (nivel 1) es como darle al asistente una libreta y un lápiz. Le ayuda a resolver problemas muy difíciles que antes no podía.
  • Lo malo: Forzarlo a usar una recursividad profunda (nivel 2) es como darle un megáfono, un teléfono y un equipo de abogados. Solo lo hace lento, caro y propenso a cometer errores tontos.

En resumen:
Si tienes un problema difícil, dale al asistente una libreta (nivel 1). Si tienes un problema fácil, déjalo trabajar solo. Si le pides que se llame a sí mismo demasiadas veces, solo conseguirás que se maree, se gaste todo tu dinero y te dé una respuesta que no tiene sentido.

El futuro no es hacer que los modelos sean más "recursivos" por defecto, sino entrenarlos para que sepan cuándo parar de pensar y simplemente responder.