LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

Each language version is independently generated for its own context, not a direct translation.

Imagina que gestionar la publicidad en internet es como dirigir una carrera de Fórmula 1 donde tienes un tanque de combustible limitado (tu presupuesto) y una meta clara: llegar a la mayor cantidad de espectadores posible sin quedarte sin gasolina antes de tiempo.

Antiguamente, los equipos tenían un ingeniero humano en el box que miraba las pantallas y gritaba: "¡Sube la velocidad!" o "¡Frena!". Pero hoy en día, hay millones de carreras ocurriendo al mismo tiempo, a una velocidad increíble. Un humano no puede reaccionar lo suficientemente rápido. Por eso, necesitamos un piloto automático (el "Auto-bidding").

El problema es que los pilotos automáticos actuales son como robots muy inteligentes pero sin sentido común. Han visto miles de carreras, pero si ocurre algo extraño (una lluvia repentina o un accidente), a veces toman decisiones ilógicas, como acelerar a fondo cuando deberían frenar, simplemente porque "así salieron bien en los datos pasados". Son una "caja negra": funcionan, pero no sabes por qué.

Aquí es donde entra la LBM (Modelo de Licitación Automática Jerárquica), la solución que proponen los autores. Imagina que en lugar de un solo robot, tienes un equipo de dos personas trabajando en equipo:

1. El Estratega (LBM-Think)

Este es el capitán del equipo o el entrenador.

Qué hace: No se preocupa por pisar el acelerador en este preciso milisegundo. En cambio, mira el panorama general. Lee los datos históricos, piensa en la estrategia y usa su "sentido común" (conocimiento humano pre-entrenado) para razonar.
Su superpoder: Puede decir: "Oye, hemos gastado mucho presupuesto pero no hemos ganado muchas carreras. El clima está cambiando. Debemos ser más agresivos".
Cómo lo hace: Genera un "diálogo interno" (llamado Chain-of-Thought o Cadena de Pensamiento). Es como si el entrenador estuviera murmurando sus pensamientos antes de dar la orden.

2. El Piloto (LBM-Act)

Este es el piloto de la carrera que está en el coche.

Qué hace: Recibe la orden del Estratega y los datos del coche en tiempo real (velocidad, combustible, posición). Su trabajo es traducir esa orden en una acción física precisa: girar el volante o pisar el pedal.
Su superpoder: Es muy rápido y preciso. No necesita pensar en la estrategia, solo necesita ejecutar la orden del Estratega con exactitud matemática.
El truco: Este piloto entiende dos idiomas a la vez: el idioma de la estrategia (lo que le dice el Estratega) y el idioma de los números (los datos del coche). El papel introduce un mecanismo especial ("doble embebido") para que el piloto entienda perfectamente ambas cosas sin confundirse.

¿Cómo aprenden a ser mejores? (El entrenamiento)

En lugar de dejar que el equipo pruebe cosas en la vida real (lo cual sería arriesgado y costoso, como quemar dinero en una mala estrategia), usan un simulador de entrenamiento offline:

Fase 1 (Aprendizaje del Piloto): El Piloto aprende a seguir las instrucciones del Estratega y a manejar los números. Se le enseña a fusionar el "qué hacer" (idioma) con el "cómo hacerlo" (números).
Fase 2 (Refinamiento del Estratega): Aquí es donde usan una técnica llamada GQPO. Imagina que el Estratega genera varias posibles estrategias (varios "diálogos internos"). Luego, un sistema de revisión (basado en matemáticas avanzadas) mira cuál de esas estrategias habría llevado a la mejor victoria si se hubiera aplicado en el pasado.
- Si el Estratega dice: "¡Acelera!" y eso hubiera sido un error, el sistema le dice: "No, eso no funcionó".
- Si dice: "¡Frena y espera!" y eso hubiera sido genial, el sistema le dice: "¡Exacto! Haz eso otra vez".
- Así, el Estratega aprende a razonar mejor sin tener que cometer errores reales en la vida real.

¿Por qué es genial esto?

No es una caja negra: A diferencia de los robots antiguos, este sistema "piensa" en voz alta. Sabemos por qué toma una decisión (porque el Estratega razonó sobre el presupuesto y el clima).
Generaliza mejor: Si ocurre algo nuevo que nunca han visto en los datos, el Estratega puede usar su lógica humana para adaptarse, en lugar de simplemente fallar.
Eficiencia: Separar al "pensador" del "hacedor" permite que el sistema sea rápido y preciso. El pensador puede trabajar un poco antes de la carrera, y el piloto actúa en el momento justo.

En resumen:
La LBM es como tener un equipo de Fórmula 1 perfecto: un entrenador sabio que analiza la situación y piensa con lógica, y un piloto experto que ejecuta las órdenes con precisión milimétrica. Juntos, logran ganar más carreras y gastar el presupuesto de forma más inteligente que cualquier robot solitario.

Each language version is independently generated for its own context, not a direct translation.

1. Planteamiento del Problema

La automatización de la licitación (auto-bidding) en plataformas de publicidad digital es crucial debido a la escala masiva de subastas y la competencia intensa, lo que hace inviable la gestión manual por expertos humanos. El objetivo es maximizar las conversiones (valor de las impresiones ganadas) respetando restricciones económicas estrictas, como el Costo por Acción (CPA) y el presupuesto.

Limitaciones de los métodos actuales:

Aprendizaje por Refuerzo (RL) Offline y Métodos Generativos: Aunque métodos como Decision Transformer (DT) o IQL han avanzado, a menudo actúan de manera "contra-intuitiva" (ej. aumentar la puja cuando el CPA ya es demasiado alto). Esto se debe a su naturaleza de "caja negra", donde dependen puramente del diseño de recompensas y carecen de comprensión semántica del estado de la tarea.
Generalización: Estos modelos están limitados por la cobertura de modos en los conjuntos de datos offline y fallan en situaciones dinámicas o no vistas previamente.
Aplicación Directa de LLMs: Intentar usar Grandes Modelos de Lenguaje (LLMs) directamente para licitación enfrenta dos problemas principales:
1. Precisión: Las subastas requieren acciones numéricas precisas; un error pequeño puede desperdiciar presupuesto o perder impresiones.
2. Alucinaciones y Conocimiento: Los LLMs públicos no están pre-entrenados en datos de licitación y pueden alucinar o carecer de la capacidad de toma de decisiones secuenciales óptimas en espacios de acción continuos. Además, convertir secuencias numéricas largas en tokens de lenguaje es ineficiente en términos de cómputo.

2. Metodología Propuesta: LBM

Los autores proponen LBM (Large auto-Bidding Model), un modelo jerárquico que desacopla el razonamiento de la acción, utilizando dos módulos distintos para aprovechar las fortalezas de los LLMs sin sus debilidades.

A. Arquitectura Jerárquica

El modelo consta de dos componentes principales:

LBM-Think (Alto Nivel): Encargado del razonamiento en el espacio del lenguaje.
- Genera una Cadena de Pensamiento (CoT) que resume el historial de rendimiento de las pujas y razona sobre la dirección de ajuste futura (ej. "aumentar" o "disminuir" los parámetros).
- Puede ejecutarse de forma asíncrona antes del paso de decisión, permitiendo un procesamiento más profundo sin retrasar la subasta.
LBM-Act (Bajo Nivel): Encargado de la generación de acciones precisas en el espacio de acción continuo.
- Recibe el estado actual (datos numéricos) y la CoT generada por LBM-Think.
- Genera el parámetro de puja final ( $\tilde{a}_t$ ).

B. Mecanismos Clave de Entrenamiento

Mecanismo de Doble Incrustación (Dual Embedding) para LBM-Act:
- Para evitar la ineficiencia de convertir números en tokens de texto, se propone fusionar dos modalidades: lenguaje y numérica.
- Utiliza una capa de incrustación de tokens pre-entrenada para la CoT (lenguaje) y una capa de incrustación de decisión (Decision Embedding) específica para las secuencias numéricas (proyectadas mediante un MLP).
- Estas dos representaciones se fusionan en las capas Transformer para que el modelo comprenda las instrucciones lingüísticas y ejecute el control preciso simultáneamente.
Entrenamiento Guiado por Lenguaje:
- LBM-Act se entrena para seguir las instrucciones de la CoT y generar acciones que coincidan con las acciones óptimas del conjunto de datos, utilizando una pérdida de regresión sobre la acción.
Ajuste Fino de Refuerzo Offline: GQPO (Group relative-Q Policy Optimization):
- Para mitigar las alucinaciones de LBM-Think y mejorar su razonamiento sin necesidad de interacción en el mundo real (que es riesgoso en publicidad), se propone GQPO.
- Concepto: En lugar de usar recompensas basadas en simulación, GQPO utiliza un valor Q offline (entrenado con IQL) para evaluar la calidad de las CoTs generadas.
- Proceso: Se generan múltiples CoTs para un mismo estado. Se calcula el $\Delta Q$ (diferencia entre el valor Q de la acción generada con la CoT y la acción del dataset).
- Se selecciona la CoT con el $\Delta Q$ más alto (si es positivo) y se utiliza para ajustar finamente LBM-Think, maximizando la probabilidad de generar razonamientos que mejoren la decisión.

3. Contribuciones Clave

Modelo Jerárquico LBM: Una arquitectura novedosa que separa el razonamiento (Think) de la ejecución (Act), permitiendo aprovechar el conocimiento previo y la capacidad de razonamiento de los LLMs mientras se mantiene la precisión numérica necesaria para las subastas.
Mecanismo de Doble Incrustación: Una técnica eficiente para fusionar inputs de lenguaje y numéricos, permitiendo que el modelo de acción (LBM-Act) procese instrucciones complejas sin la sobrecarga de tokens de secuencias numéricas largas.
GQPO (Group relative-Q Policy Optimization): Una técnica de ajuste fino estable y totalmente offline que utiliza valores Q relativos para refinar el razonamiento del LLM, eliminando la necesidad de rollouts en simuladores o entornos reales, lo cual es crítico para la seguridad en publicidad.
Validación Empírica: Demostración de que un backbone generativo basado en LLMs supera a los métodos tradicionales de RL y generativos en eficiencia de entrenamiento y capacidad de generalización.

4. Resultados Experimentales

Los experimentos se realizaron en AuctionNet, un benchmark realista de subastas de publicidad a gran escala.

Comparación con Baselines:
- LBM superó consistentemente a métodos de RL offline (USCB, CQL, IQL) y métodos generativos (Decision Transformer, DiffBid).
- La variante LBM(GQPO) (con ajuste fino) obtuvo el mejor rendimiento, logrando la mayor cantidad de conversiones y la mejor puntuación global (Score), superando a DT en un 4-5% en conversiones densas.
Generalización:
- LBM mostró una mayor robustez al variar los presupuestos de prueba, manteniendo un alto rendimiento donde otros modelos (como DT) fallaban.
Comportamiento y Razonamiento:
- Cumplimiento de Restricciones: A diferencia de los modelos DT que a veces ignoran el CPA, LBM (especialmente con GQPO) mostró un comportamiento alineado con la lógica humana: reducir la puja cuando el CPA supera el límite y aumentarla cuando está por debajo.
- Seguimiento de Instrucciones: El modelo respondió correctamente a instrucciones lingüísticas para aumentar o disminuir la puja, demostrando flexibilidad estratégica.
Eficiencia:
- Se demostró que un LLM pequeño (3B parámetros) es suficiente para la tarea, logrando una latencia de inferencia compatible con los intervalos de ajuste de pujas industriales (ej. cada 30 minutos).

5. Significado e Impacto

Este trabajo representa un avance significativo en la intersección entre la inteligencia artificial generativa y la publicidad programática:

Superación de la "Caja Negra": Al introducir el razonamiento explícito (CoT) en la estrategia de licitación, se hace que el proceso de toma de decisiones sea más interpretable y alineado con la lógica económica humana.
Viabilidad Industrial: La propuesta de un enfoque totalmente offline (GQPO) resuelve el problema de seguridad y costo de los métodos de RL online, haciendo viable la implementación de LLMs en entornos de producción de alto riesgo.
Nuevo Paradigma: Establece un nuevo estándar para el uso de LLMs en tareas de control continuo, demostrando que la combinación de razonamiento de alto nivel y control de bajo nivel es superior a intentar forzar a un solo modelo a hacer ambas cosas simultáneamente.

En resumen, LBM demuestra que los LLMs, cuando se estructuran jerárquicamente y se entrenan con técnicas de ajuste fino offline inteligentes, pueden superar a los métodos especializados tradicionales, ofreciendo estrategias de licitación más robustas, generalizables y eficientes.

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

1. El Estratega (LBM-Think)

2. El Piloto (LBM-Act)

¿Cómo aprenden a ser mejores? (El entrenamiento)

¿Por qué es genial esto?

1. Planteamiento del Problema

2. Metodología Propuesta: LBM

A. Arquitectura Jerárquica

B. Mecanismos Clave de Entrenamiento

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA