In-Context Reinforcement Learning for Tool Use in Large Language Models

Este trabajo propone el Aprendizaje por Refuerzo en Contexto (ICRL), un marco que elimina la necesidad de ajuste fino supervisado mediante el uso de ejemplos en contexto durante el entrenamiento por refuerzo, logrando un rendimiento superior en tareas de uso de herramientas con mayor eficiencia de datos.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un genio muy inteligente (un modelo de lenguaje grande o LLM) que sabe muchísimas cosas, pero tiene un problema: su memoria es estática. Si le preguntas algo que ocurrió ayer o un dato muy específico que no aprendió en su "escuela" inicial, se queda en blanco o alucina respuestas.

Para arreglar esto, los científicos le dieron al genio un teléfono (para buscar en Google) y una calculadora (para hacer matemáticas). El problema es que el genio no sabe cómo usar esos instrumentos; le da miedo llamar o no sabe qué botón presionar.

Aquí es donde entra la Aprendizaje por Refuerzo en Contexto (ICRL), la estrella de este artículo.

La Analogía: El Entrenador de Fútbol y el "Pelotón de Apoyo"

Imagina que quieres entrenar a un jugador de fútbol (el modelo) para que aprenda a usar una nueva jugada táctica compleja (usar herramientas).

1. El Método Viejo (SFT + RL): "El Manual de Instrucciones Gigante"
Antes, para entrenar al jugador, los entrenadores tenían que:

  • Escribir un manual de 10,000 páginas con ejemplos perfectos de cada jugada (esto es SFT o "Ajuste Fino Supervisado").
  • Luego, el jugador practicaba con esos ejemplos y recibía premios o castigos (esto es RL o "Aprendizaje por Refuerzo").
  • El problema: Escribir ese manual es carísimo, lento y requiere expertos humanos. Si el manual está mal, el jugador aprende mal.

2. El Nuevo Método (ICRL): "El Entrenador que te susurra al oído"
La propuesta de este paper es más inteligente y económica. Imagina que el entrenador no escribe un manual, sino que se sienta a tu lado en el campo de entrenamiento:

  • La Fase de "Apoyo" (Few-Shot): Al principio, el entrenador te susurra al oído: "Mira, cuando el árbitro pita, primero mira al portero, luego corre a la derecha y chuta". Te da 3 o 4 ejemplos de cómo hacerlo justo antes de que tú intentes la jugada. Tú lo imitas y, si aciertas, el entrenador te da una galleta (recompensa).
  • La Fase de "Retirada Gradual" (Curriculum): A medida que practicas, el entrenador empieza a susurrar menos. Primero te da 3 ejemplos, luego 2, luego 1.
  • La Fase de "Autonomía" (Zero-Shot): Finalmente, el entrenador se aleja. Ya no te susurra nada. Pero como has practicado imitando esos ejemplos mientras recibías premios, ¡ya sabes hacerlo solo! Has internalizado la jugada.

¿Qué hace ICRL exactamente?

En lenguaje técnico pero sencillo, ICRL hace tres cosas clave:

  1. No necesita un manual gigante: En lugar de entrenar al modelo con miles de ejemplos etiquetados por humanos (que es caro), le pone pocos ejemplos (como 3 o 4) directamente en la conversación inicial, justo antes de pedirle que resuelva un problema.
  2. Aprende haciendo (Refuerzo): El modelo intenta resolver el problema usando esas herramientas (como buscar en Google o escribir código). Si la respuesta es correcta y usa el formato adecuado, recibe un "premio". Si falla, recibe un "castigo".
  3. Se independiza poco a poco: Al principio, el modelo mira los ejemplos para saber qué hacer. Luego, el sistema va quitando esos ejemplos poco a poco. El modelo se ve obligado a aprender la lógica por sí mismo, basándose en los premios que ganó antes.

Los Resultados: ¿Funciona de verdad?

Los autores probaron esto con modelos de inteligencia artificial (como Qwen) en dos tipos de pruebas difíciles:

  • Preguntas de cultura general y búsqueda: Donde el modelo debe buscar información en internet para responder.
    • Resultado: ¡Fue un éxito rotundo! El modelo ICRL superó a todos los otros métodos, incluso a los que usaban manuales gigantes de entrenamiento. En pruebas difíciles, mejoró la precisión en más de un 40% en algunos casos.
  • Matemáticas con código: Donde el modelo debe escribir código Python para resolver problemas de matemáticas complejas.
    • Resultado: Aunque no tuvo un entrenamiento previo con ejemplos etiquetados, logró resultados casi idénticos (e incluso mejores en algunos casos) a los métodos que sí los tenían.

En resumen

Este paper nos dice que no necesitas obligar a un robot a memorizar un libro de instrucciones gigante para que aprenda a usar herramientas.

Si le das pocos ejemplos al principio y lo dejas practicar recibiendo premios cuando acierta, el robot aprenderá a usar esas herramientas (buscar en internet, calcular, etc.) de forma autónoma, más rápido y gastando mucho menos dinero y tiempo que los métodos tradicionales.

Es como enseñar a un niño a andar en bicicleta: al principio le pones ruedas de apoyo (los ejemplos en el contexto), pero en cuanto ve que se mantiene, las quitas poco a poco hasta que pedalea solo. ¡Y lo mejor es que no necesitas un manual de 1000 páginas para hacerlo!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →