Go-Browse: Training Web Agents with Structured Exploration

El artículo presenta Go-Browse, un método que utiliza una búsqueda gráfica estructurada para recopilar datos de exploración web a gran escala, permitiendo que un modelo de lenguaje de 7B parámetros supere a GPT-4o mini y establezca un nuevo estado del arte en el benchmark WebArena.

Apurva Gandhi, Graham Neubig

Publicado 2026-03-04
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un robot muy inteligente, pero que nunca ha salido de su casa. Si le pides que vaya a la tienda de la esquina a comprar leche, el robot podría perderse, chocar contra las paredes o no saber dónde está la leche, porque nunca ha visto ese edificio antes.

Así es como funcionan la mayoría de los "agentes web" (robots que navegan por internet) hoy en día: son muy listos, pero se pierden fácilmente en sitios nuevos.

El artículo "GO-BROWSE" presenta una solución genial para este problema. Aquí te lo explico como si fuera una historia de exploración:

1. El Problema: El Robot Perdido

Antes, para enseñar a estos robots a navegar, los humanos tenían que grabar miles de videos de sí mismos haciendo tareas (como "comprar zapatos" o "buscar un mapa"). Esto es como dar clases particulares a un robot: muy caro, muy lento y aburrido.

Otra opción era dejar que el robot "juguara" libremente por internet, pero sin un plan claro. Esto es como soltar a un perro en un bosque gigante: podría encontrar algo interesante, pero también podría pasar horas olfateando el mismo árbol una y otra vez, perdiendo el tiempo.

2. La Solución: GO-BROWSE (El Explorador con Mapa)

Los autores crearon un método llamado GO-BROWSE. Imagina que en lugar de dejar que el robot deambule ciegamente, le das un mapa en crecimiento y una estrategia de "resetear y explorar".

Funciona como un juego de exploración en dos pasos:

  • El Paso 1: El Mapa (El Bucle Exterior)
    Imagina que el robot está explorando un laberinto gigante (un sitio web). En lugar de empezar siempre desde la puerta de entrada (la página de inicio), el robot guarda un registro de todas las habitaciones que ya ha descubierto.
    Si encuentra una habitación interesante pero difícil de alcanzar, la marca en su mapa. La próxima vez que quiera explorar, puede "teletransportarse" (reiniciar) directamente a esa habitación para empezar a buscar cosas nuevas desde allí.

    • Analogía: Es como si un explorador en una cueva dejara un hilo de Ariadna. Si se pierde, no vuelve a caminar todo el camino desde la entrada; simplemente vuelve al último punto seguro donde encontró algo interesante y sigue desde ahí.
  • El Paso 2: La Misión (El Bucle Interior)
    Una vez que el robot está en una habitación (una página web), no solo mira a su alrededor. Se le da una misión específica: "Encuentra el botón de 'Comprar'" o "Muestra los productos de más de 50 dólares".
    El robot intenta cumplir esa misión. Si lo logra, guarda el éxito. Si falla, aprende qué no hacer.

3. ¿Por qué es tan especial?

La magia de GO-BROWSE es que aprende de sus propios errores y éxitos para crear un mapa cada vez mejor.

  • Eficiencia: No pierde tiempo volviendo a lugares que ya conoce. Va directo a lo nuevo.
  • Calidad: Al poder "reiniciarse" en páginas específicas, el robot puede practicar tareas difíciles sin tener que navegar desde el principio cada vez. Es como un estudiante que repasa solo los capítulos difíciles del libro en lugar de leer todo el libro de nuevo.
  • Resultados: Usaron este método para crear un "gimnasio de entrenamiento" con 10,000 ejemplos de éxito. Cuando entrenaron a un modelo de inteligencia artificial (un cerebro digital) con estos datos, ¡se volvió increíblemente bueno!

4. El Resultado Final

Después de entrenar a un modelo de tamaño medio (7 mil millones de parámetros) con estos datos, el robot logró un 21.7% de éxito en pruebas reales de navegación web.

Para ponerlo en perspectiva:

  • Era mejor que un modelo gigante y costoso de OpenAI (GPT-4o mini).
  • Era el mejor modelo de su tamaño (menos de 10 mil millones de parámetros) hasta la fecha.

En resumen

GO-BROWSE es como darle a un robot un cuaderno de bitácora inteligente. En lugar de caminar a ciegas por internet, el robot explora, dibuja su propio mapa, vuelve a los puntos clave para practicar y, poco a poco, se convierte en un experto navegante que sabe exactamente cómo llegar a cualquier destino en la web, incluso si nunca ha estado allí antes.

Es una forma de enseñar a las máquinas a ser exploradoras, no solo a seguir instrucciones ciegamente.