Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

El artículo presenta AIGB-Pearl, un método innovador que supera las limitaciones de exploración de las estrategias de puja automática generativa existentes al integrar un evaluador de trayectorias y un esquema de optimización de políticas restringido, logrando así un rendimiento superior en sistemas publicitarios reales y simulados.

Zhiyu Mou, Yiqin Lv, Miao Xu, Qi Wang, Yixiu Mao, Jinghao Chen, Qichen Ye, Chao Li, Rongquan Bai, Chuan Yu, Jian Xu, Bo Zheng

Publicado 2026-03-04
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que la publicidad en internet es como un mercado gigante y frenético donde miles de vendedores (anunciantes) compiten por la atención de los compradores. Para ganar, tienen que pujar por "espacios" publicitarios en milisegundos.

El problema es que hacerlo manualmente es imposible. Aquí es donde entran los bots de puja automática (Auto-bidding). Pero, ¿cómo aprenden estos bots a pujar bien sin gastar todo el dinero de la empresa?

Aquí te explico la solución que proponen en este paper, llamada AIGB-Pearl, usando una analogía sencilla: El Chef, el Crítico y el Libro de Recetas.

1. El Problema: El Chef que solo copia recetas

Imagina que tienes un Chef (el modelo de Inteligencia Artificial) que quiere aprender a cocinar el plato perfecto para venderlo.

  • El método antiguo (AIGB): El Chef tiene un libro de recetas con 100 platos que ya se han cocinado antes (los datos offline). El Chef intenta imitar esos platos lo más fielmente posible.
    • El fallo: Si el Chef intenta cocinar algo nuevo que no está en el libro (explorar), se pierde. Como no tiene experiencia real cocinando cosas nuevas, a veces crea platos terribles que hacen que los clientes se vayan o que el Chef gaste todo el presupuesto en ingredientes caros sin vender nada. Es como intentar adivinar el sabor de un plato nuevo sin haberlo probado nunca.

2. La Solución: AIGB-Pearl (El Chef con un Crítico)

Los autores de este paper dicen: "¡Esperen! No solo copiemos el libro. Vamos a crear un Crítico de Comida (un evaluador) que pueda decirnos qué tan bueno es un plato antes de servirlo".

Así funciona AIGB-Pearl:

  1. El Crítico (Evaluador): Primero, entrenan a un experto (el evaluador) con el libro de recetas antiguo. Este experto aprende a decir: "Este plato vale 5 estrellas" o "Este plato es basura".
  2. El Chef (Planificador): Luego, el Chef intenta crear nuevos platos (pujas nuevas) que no están en el libro.
  3. La Prueba de Sabor: Antes de servir el plato, el Chef se lo muestra al Crítico. El Crítico le da una puntuación. Si el Chef crea un plato que el Crítico dice que es "genial", el Chef lo guarda. Si el Crítico dice que es "peligroso" (podría gastar mucho dinero sin vender), el Chef lo descarta.

3. El Truco de Seguridad: La "Zona de Seguridad" (Restricciones KL y Lipschitz)

Aquí está la parte más inteligente y segura del paper.

El Crítico es bueno, pero no es perfecto. Si el Chef intenta cocinar algo demasiado extraño (algo que el Crítico nunca ha visto), el Crítico podría equivocarse y decir que es un plato de 10 estrellas cuando en realidad es venenoso.

Para evitar esto, AIGB-Pearl pone dos reglas de seguridad (como un andamio alrededor del Chef):

  • Regla 1: No te alejes demasiado de lo conocido (Restricción KL): El Chef no puede inventar platos que sean radicalmente diferentes a los que ya existen en el libro. Debe mantenerse cerca de lo que ya sabemos que funciona.
  • Regla 2: La regla del "Paso Suave" (Restricción Lipschitz): Si el Chef cambia un ingrediente un poquito, el resultado del plato no puede cambiar de "delicioso" a "venenoso" de golpe. Los cambios deben ser graduales y predecibles.

La metáfora del mapa:
Imagina que el libro de recetas es un mapa de una ciudad segura.

  • Los métodos antiguos se quedan quietos en el mapa.
  • Los métodos de IA sin seguridad intentan caminar por el bosque oscuro fuera del mapa y se pierden.
  • AIGB-Pearl le da al Chef una linterna (el Crítico) y un cordón de seguridad. El Chef puede caminar un poco más allá de la ciudad (explorar) para encontrar nuevos atajos, pero el cordón le asegura que nunca se aleje tanto que se pierda en la oscuridad, y la linterna le avisa si el camino se vuelve peligroso.

4. ¿Qué lograron?

En pruebas reales (en la plataforma de Taobao de Alibaba, que es como el Amazon de China), este nuevo sistema:

  • Ganó más dinero (más ventas o GMV) que los sistemas anteriores.
  • No gastó el presupuesto de más (no se salió de control).
  • Funcionó mejor incluso con anunciantes nuevos que no estaban en los datos originales.

En resumen

AIGB-Pearl es como enseñar a un robot a conducir en una carrera. En lugar de solo memorizar las vueltas que ya ha hecho (datos antiguos), le ponen un copiloto experto (el evaluador) que le dice "¡Cuidado, esa curva es peligrosa!" y le pone cinturones de seguridad (las restricciones matemáticas) para que, aunque intente ir más rápido y tomar atajos, nunca se salga de la pista y choque.

El resultado: Un sistema que aprende, mejora y gana dinero de forma segura, sin tener que arriesgar la empresa en el proceso.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →