Knowledge-informed Bidding with Dual-process Control for Online Advertising

Ce papier propose KBD, une méthode innovante d'optimisation des enchères publicitaires qui intègre l'expertise humaine et un contrôle à double processus (combinant des règles PID rapides et un Decision Transformer) pour surmonter les limites des modèles d'apprentissage automatique traditionnels, notamment en cas de données rares ou de scénarios hors distribution.

Huixiang Luo, Longyu Gao, Yaqi Liu, Qianqian Chen, Pingchun Huang, Tianning Li

Publié 2026-03-06
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes le capitaine d'un navire de commerce (votre entreprise) qui doit traverser une mer très agitée (le marché de la publicité en ligne) pour acheter des marchandises précieuses (des clics et des ventes) au meilleur prix possible. Votre objectif est d'arriver à destination avec le plus de marchandises possible, sans jamais dépasser votre budget de carburant.

C'est exactement le défi que rencontrent les annonceurs aujourd'hui. La plupart des systèmes actuels fonctionnent comme un GPS automatique aveugle : ils regardent l'historique des routes passées pour décider où tourner. Mais si une tempête soudaine arrive (une promotion imprévue) ou si vous êtes dans une zone où il n'y a pas de cartes (peu de données), ce GPS se trompe, vous fait faire des détours inutiles ou vous fait couler.

Les auteurs de cet article, travaillant chez Alibaba Health, proposent une nouvelle solution appelée KBD. C'est comme si vous donniez à votre capitaine un double cerveau inspiré de la façon dont les humains pensent.

Voici comment cela fonctionne, expliqué simplement :

1. Le problème des "GPS aveugles"

Les anciennes méthodes utilisent des modèles d'intelligence artificielle "boîte noire". Ils apprennent uniquement en regardant des données passées.

  • Le hic : Ils sont très mauvais quand il n'y a pas assez de données (comme un débutant qui n'a jamais navigué).
  • Le hic : Ils sont "myopes". Ils regardent seulement la prochaine vague et oublient que leur décision d'aujourd'hui affectera leur capacité à naviguer demain.
  • Le hic : Ils paniquent quand le temps change brusquement (nouveau produit, soldes), car ils ne comprennent pas la logique derrière le changement.

2. La solution KBD : Un Capitaine avec un Double Cerveau

L'idée centrale est d'imiter la théorie du double processus de l'esprit humain (Système 1 et Système 2), combinée à l'expertise humaine.

Étape Macro (Le Plan de la Journée) : L'Expert Humain

Avant même de lever l'ancre, le capitaine a besoin d'un plan global.

  • L'ancien système : Devinait le prix moyen à payer pour la journée en regardant des graphiques flous.
  • Le nouveau système (IEFormer) : Il intègre la sagesse des experts humains directement dans le code.
    • Analogie : Imaginez que vous ne donnez pas seulement une carte au capitaine, mais que vous lui apprenez aussi les règles de la navigation : "Si le vent vient de l'Est, le prix monte doucement" ou "On ne dépense jamais plus de 10% du budget en une heure".
    • Le modèle apprend à respecter ces règles (comme la monotonie : plus on dépense, plus le coût unitaire augmente) tout en utilisant une intelligence artificielle puissante pour analyser les détails. Cela crée une base solide et fiable pour la journée, même s'il y a peu de données.

Étape Micro (L'Action Heure par Heure) : Le Duo Dynamique

Une fois la journée lancée, il faut ajuster le cap chaque heure. C'est là que le double cerveau entre en jeu :

  • Système 1 (Le Pilote Automatique Rapide - PID) :
    • C'est un contrôleur simple, basé sur des règles fixes (comme un thermostat).
    • Analogie : Si vous dépensez trop vite, il freine immédiatement. Si vous dépensez trop lentement, il accélère. C'est rapide, robuste et ne panique jamais, même dans la tempête. Mais il est un peu "bête" et ne voit pas loin.
  • Système 2 (Le Stratège Réfléchi - Decision Transformer) :
    • C'est une IA très intelligente qui regarde les 24 prochaines heures.
    • Analogie : C'est le capitaine qui réfléchit : "Si je dépense un peu plus maintenant, je pourrai acheter une meilleure marchandise dans 3 heures." Il optimise le long terme. Mais il peut être confus si les conditions changent trop vite.

La Magie de KBD : La Fusion
Au lieu de choisir l'un ou l'autre, KBD les combine intelligemment :

  1. En temps normal : Le Stratège (Système 2) prend les décisions, guidé par le Pilote (Système 1) pour ne pas faire de bêtises.
  2. En cas de tempête (changement brutal) : Si le Stratège commence à douter (l'IA devient incertaine), le système bascule automatiquement vers le Pilote (Système 1). C'est comme si le capitaine laissait le pilote automatique prendre le relais quand la tempête devient trop forte, pour éviter de couler.

Pourquoi est-ce génial ?

Les tests ont montré que cette approche :

  • Gagne plus d'argent (GMV) : En achetant mieux, l'entreprise gagne plus de ventes.
  • Respecte mieux le budget : On ne dépense pas plus que prévu.
  • Survit aux tempêtes : Quand une promotion soudaine arrive ou qu'un nouveau produit est lancé, le système ne panique pas. Il utilise l'expertise humaine (les règles) pour rester stable, tout en utilisant l'IA pour optimiser les gains.

En résumé

KBD, c'est comme remplacer un GPS automatique qui se trompe souvent par un capitaine expérimenté qui a un assistant rapide et un stratège visionnaire. Ensemble, ils naviguent avec la sagesse de l'expérience et la puissance de l'IA, garantissant que votre entreprise atteint ses objectifs commerciaux, même dans les eaux les plus imprévisibles.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →