UI-Venus-1.5 Technical Report

El informe técnico presenta UI-Venus-1.5, una familia unificada de agentes de GUI que, mediante avances técnicos como un entrenamiento intermedio masivo, aprendizaje por refuerzo en línea y fusión de modelos, establece nuevos récords de rendimiento en la automatización de interacciones en entornos digitales complejos.

Venus Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang

Publicado 2026-02-25
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que UI-Venus-1.5 es como un nuevo asistente personal digital súper inteligente que no solo entiende lo que le dices, sino que también sabe exactamente dónde hacer clic, cómo escribir y cómo navegar por tu teléfono o computadora, tal como lo haría una persona real.

Aquí te explico cómo funciona, usando analogías sencillas:

1. ¿Qué problema resuelve?

Antes, los robots que intentaban usar aplicaciones (como pedir un taxi o comprar entradas) eran como niños pequeños: a veces entendían la orden, pero se perdían, hacían clic en lo incorrecto o no sabían qué hacer si la pantalla cambiaba. Necesitaban instrucciones muy rígidas.

UI-Venus-1.5 es como un adulto experto que ha visto miles de pantallas diferentes. No necesita que le digas "haz clic en el botón rojo"; simplemente entiende: "Quiero comprar un boleto para el cine" y busca el camino correcto por sí mismo.

2. ¿Cómo aprende a ser tan bueno? (Los 3 Trucos Maestros)

El equipo de Ant Group (los creadores) no solo le dio más memoria al robot; le enseñó de una manera muy especial en tres etapas:

  • Etapa 1: El "Campamento de Entrenamiento" (Mid-Training)
    Imagina que antes de enseñarle a un niño a jugar fútbol, primero le mostramos miles de videos de partidos, le explicamos las reglas y le enseñamos cómo se mueven los jugadores.

    • En la vida real: El modelo vio 10 mil millones de ejemplos de cómo se ven las aplicaciones, menús y botones. Esto le dio una "intuición" sobre cómo funcionan las interfaces antes de empezar a practicar de verdad. Ahora, sabe qué es un botón de "enviar" o una barra de búsqueda sin tener que adivinar.
  • Etapa 2: "Practicar con un Entrenador" (Aprendizaje Offline)
    Aquí, el robot practica en un entorno controlado. Si intenta hacer algo mal, el entrenador le dice: "Eso no es correcto, inténtalo así".

    • El truco: Aprendieron a decir "No" cuando algo es imposible. Si le pides al robot que haga clic en un botón que no existe en la pantalla, en lugar de alucinar y hacer clic en la nada, el robot dice: "Oye, ese botón no está aquí". ¡Esto evita errores tontos!
  • Etapa 3: "El Campo de Batalla Real" (Aprendizaje Online)
    Esta es la parte más importante. En lugar de practicar solo en un simulador, el robot se lanza a usar aplicaciones reales en dispositivos virtuales, una y otra vez.

    • La analogía: Es como si un piloto de avión pasara de volar en un simulador a volar en aviones reales con mal tiempo. Si se equivoca, aprende de la experiencia en tiempo real. Esto le permite resolver tareas largas y complejas (como "busca un restaurante vegetariano, reserva una mesa y paga") sin perderse en el camino.

3. El "Superpoder" de la Fusión (Model Merging)

Antes, tenías que tener un robot experto en webs, otro experto en móviles y otro experto en escritorio. Era como tener tres herramientas diferentes en tu caja de herramientas.

UI-Venus-1.5 es como una navaja suiza mágica. Los creadores tomaron a los tres expertos (web, móvil y escritorio) y los "fusionaron" en un solo cerebro.

  • Resultado: Ahora tienes un solo modelo que es igual de bueno en tu teléfono Android, en una página web o en un programa de escritorio, sin tener que cambiar de herramienta.

4. ¿Qué tan bueno es realmente?

Los resultados son impresionantes. En pruebas donde otros robots fallaban, UI-Venus-1.5 logró:

  • 77.6% de éxito en tareas complejas de Android (como configurar el teléfono o usar apps).
  • 69.6% en encontrar botones específicos en pantallas profesionales (como programas de diseño o Excel).

Es como si antes el robot acertara 6 de cada 10 veces, y ahora acierte 8 de cada 10, incluso en tareas muy difíciles.

5. ¿Para qué sirve en la vida real?

No es solo un experimento de laboratorio. Han optimizado este modelo para que funcione perfectamente con más de 40 aplicaciones chinas populares (como apps de compras, reservas de trenes, mensajería, etc.).

  • Ejemplo: Puedes decirle: "Compra entradas para el concierto de mi artista favorito y añádelas a mi lista de favoritos", y el robot lo hará solo, navegando por la app, buscando el evento y pagando.

En resumen

UI-Venus-1.5 es el paso gigante hacia tener un asistente digital que realmente te ayude. Ya no es un robot torpe que necesita instrucciones paso a paso; es un compañero inteligente que entiende el contexto, aprende de sus errores en tiempo real y puede manejar tu vida digital de forma autónoma. ¡Es como darle a tu teléfono un cerebro humano!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →