XSkill: Continual Learning from Experience and Skills in Multimodal Agents

El artículo presenta XSkill, un marco de doble flujo que permite a los agentes multimodales mejorar continuamente sin actualizar parámetros, extrayendo y recuperando conocimientos complementarios de experiencias y habilidades basados en observaciones visuales para optimizar la selección de herramientas y la planificación en entornos abiertos.

Guanyu Jiang (May), Zhaochen Su (May), Xiaoye Qu (May), Yi R. (May), Fung

Publicado 2026-03-13
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un asistente personal muy inteligente (un agente de IA) que puede ver fotos, escribir código y buscar cosas en internet para ayudarte a resolver problemas complejos.

El problema es que, aunque este asistente es muy listo, a veces se equivoca en cosas tontas o se pierde en laberintos de pasos innecesarios. Es como un genio que nunca ha aprendido de sus errores pasados: cada vez que empieza un nuevo trabajo, lo hace "desde cero", olvidando lo que aprendió la vez anterior.

El paper que nos ocupa, llamado XSKILL, propone una solución brillante para que este asistente aprenda de su propia experiencia sin necesidad de volver a estudiar (entrenar) desde cero.

Aquí te lo explico con una analogía sencilla:

🧠 La Metáfora del "Cocinero y el Recetario"

Imagina que tu agente de IA es un chef en una cocina gigante.

  1. El problema actual: El chef es muy talentoso, pero si le pides que haga un plato nuevo, a veces se equivoca al cortar la cebolla o se olvida de poner la sal. Si le pides que haga el mismo plato mañana, vuelve a cometer el mismo error porque no tiene un cuaderno de notas.
  2. La solución XSKILL: XSKILL le da al chef dos tipos de ayudas que se escriben en un cuaderno mágico mientras trabaja:
    • Las "Habilidades" (Skills): Son como recetas maestras. Son instrucciones estructuradas para tareas grandes. Por ejemplo: "Para hacer una ensalada, primero lava las verduras, luego córtalas en juliana y mezcla el aderezo". Esto le dice al chef qué pasos seguir de forma ordenada.
    • Las "Experiencias" (Experiences): Son como trucos de chef o notas al margen. Son consejos rápidos basados en lo que salió mal o bien en el pasado. Por ejemplo: "Oye, la próxima vez que la cebolla esté muy oscura, usa un poco de luz extra antes de cortarla" o "Si la salsa se corta, añade un poco de limón". Esto le dice al chef cómo reaccionar ante situaciones específicas.

🔄 ¿Cómo funciona el ciclo de aprendizaje?

XSKILL funciona en dos fases, como si el chef tuviera un entrenador que le ayuda a mejorar:

  1. Fase de Acumulación (El Entrenamiento):

    • El chef intenta resolver muchos problemas (hace muchas "pruebas").
    • El entrenador (XSKILL) observa lo que hizo el chef.
    • Si el chef hizo algo bien, el entrenador escribe una nueva receta en el cuaderno de Habilidades.
    • Si el chef se equivocó (por ejemplo, no vio que la foto estaba invertida), el entrenador escribe un truco en el cuaderno de Experiencias: "¡Cuidado! Si la imagen está al revés, gírala antes de mirar".
    • Lo clave: El entrenador no solo lee lo que el chef dijo, sino que mira las fotos que el chef vio. Así, sabe exactamente por qué se equivocó (ej: "no vio el objeto pequeño porque estaba oscuro").
  2. Fase de Ejecución (El Trabajo Real):

    • Cuando llega un nuevo cliente con un pedido nuevo, el chef no empieza de cero.
    • Primero, busca en su cuaderno: "¿He visto algo similar antes?".
    • Si encuentra una Habilidad, la adapta a la nueva situación (ej: "Esta receta es para ensaladas, pero para este plato de pasta, solo necesito el paso de cortar").
    • Si encuentra una Experiencia, la usa como advertencia (ej: "¡Ah! Este cliente tiene una foto oscura, ¡aplicar el truco de la luz extra!").
    • El chef ejecuta la tarea con mucha más precisión y menos errores.

🌟 ¿Por qué es tan especial?

La mayoría de los sistemas actuales solo guardan textos (lo que el agente dijo). XSKILL es especial porque guarda todo basado en lo que el agente VIO.

  • Sin XSKILL: El agente mira una foto de un logo invertido y dice "No veo nada".
  • Con XSKILL: El agente recuerda una experiencia previa: "Cuando la imagen está invertida, rota 180 grados". ¡Y lo hace!

🏆 El Resultado

Al probar este sistema en muchos desafíos diferentes (desde buscar información en internet hasta analizar imágenes médicas), el agente con XSKILL:

  • Comete menos errores.
  • Usa las herramientas (como el código o la búsqueda web) de forma más inteligente.
  • Se adapta a tareas nuevas mucho mejor que los sistemas que solo aprenden de texto.

En resumen: XSKILL es como darle a un robot un diario de viaje ilustrado donde anota no solo lo que hizo, sino también qué vio y qué aprendió de sus tropiezos. Así, cada vez que sale a trabajar, es un poco más sabio, rápido y preciso, sin necesidad de volver a la escuela.