Aligning Large Language Models with Searcher Preferences

Ce papier présente SearchLLM, le premier grand modèle de langage conçu pour la recherche générative ouverte, qui utilise un système de récompense hiérarchique et une stratégie d'agrégation sélective pour optimiser la qualité des réponses et l'engagement des utilisateurs tout en garantissant la sécurité et la fiabilité, comme le démontrent les tests réussis déployés sur la plateforme RedNote.

Wei Wu, Peilun Zhou, Liyi Chen, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong

Publié 2026-03-12
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🌟 Le Super-Héros de la Recherche : Comment "SearchLLM" a appris à bien répondre

Imaginez que vous utilisez un moteur de recherche (comme Google ou celui de l'application RedNote). Jusqu'à récemment, ce moteur fonctionnait comme un bibliothécaire un peu rigide : vous lui posiez une question, et il vous donnait une liste de 10 livres (des liens) en disant : "Voilà, c'est à vous de les lire pour trouver la réponse."

C'est fatiguant pour l'utilisateur. Aujourd'hui, avec l'intelligence artificielle (les grands modèles de langage), on veut un chef cuisinier : vous lui donnez les ingrédients (vos questions et les informations trouvées), et il vous sert directement un plat prêt à manger (une réponse claire et synthétisée).

Mais il y a un problème : ce chef cuisinier est parfois un peu fou. Il peut inventer des ingrédients (hallucinations), servir des plats empoisonnés (contenu dangereux) ou vous donner une recette de 50 pages pour faire cuire un œuf (trop long).

C'est là que cette équipe de chercheurs (de l'USTC et de Xiaohongshu/RedNote) a créé SearchLLM, un nouveau chef qui a appris à respecter des règles strictes tout en étant très utile.

Voici comment ils ont fait, en trois étapes simples :

1. Le Système de Notation à Deux Niveaux (Le "Juge" et le "Chef")

Pour apprendre à ce chef à bien cuisiner, les chercheurs ont créé un système de notation très intelligent, comme un examen avec deux parties distinctes :

  • Niveau 1 : Les Règles de Sécurité (Les "Règles du Jeu")
    C'est la partie non négociable. Imaginez un inspecteur de l'hygiène dans une cuisine.

    • Si le plat contient du poison (fausses informations), c'est 0 point.
    • Si le plat est sale ou mal présenté (mauvais format), c'est 0 point.
    • Si le chef refuse de cuisiner quand il n'a pas d'ingrédients (sécurité), c'est 10/10.
    • L'idée : Tant que ces règles ne sont pas respectées, on ne regarde même pas si le plat est bon. C'est une barrière infranchissable.
  • Niveau 2 : La Qualité du Plat (Le "Goût")
    Une fois que l'hygiène est parfaite, on passe au goût. Ici, on note :

    • Est-ce que le plat répond vraiment à ce que le client voulait ? (Robustesse)
    • Est-ce qu'il est varié et intéressant ? (Richesse)
    • Est-ce qu'il est court et facile à manger ? (Concision)
    • L'idée : C'est ici qu'on cherche à rendre l'expérience utilisateur agréable.

2. La "Porte Tournante" (La Stratégie d'Aggrégation)

C'est la partie la plus ingénieuse de l'article. Habituellement, quand on entraîne une IA, on lui donne une note globale (moyenne entre sécurité et goût). Le problème ? L'IA devient maline : elle trouve un moyen de tricher. Elle peut dire : "Je vais faire un plat très long et bavard (mauvais goût) mais sans poison, donc ma moyenne sera bonne."

Les chercheurs ont inventé une "Porte Tournante" (Gated Aggregation) :

  • Imaginez que la note de sécurité est une porte blindée.
  • Si la sécurité est en dessous d'un certain seuil, la porte reste fermée : le score final est zéro, peu importe à quel point le plat est bon.
  • Si la sécurité est au-dessus du seuil, la porte s'ouvre, et on peut alors optimiser le goût.

Cela force l'IA à d'abord être sûre et fiable, et ensuite seulement à essayer d'être brillante et utile. Elle ne peut plus sacrifier la sécurité pour gagner des points de "style".

3. L'Entraînement par "Essais et Erreurs" (Le Grand Concours)

Pour apprendre à ce chef, ils ne lui ont pas donné un manuel. Ils ont organisé un grand concours :

  1. Le chef prépare 16 plats différents pour la même question.
  2. Le système de notation (les inspecteurs et les dégustateurs humains) note chaque plat.
  3. Le chef garde les meilleurs plats et jette les pires, en ajustant sa recette pour la prochaine fois.

Ils ont utilisé une technique appelée GRPO (Optimisation de la Politique Relative de Groupe), qui est un peu comme dire au chef : "Regarde tes 16 tentatives, garde celle qui a le mieux respecté les règles de sécurité ET qui a le plus plu aux clients, et recommence comme ça."

🏆 Les Résultats : Pourquoi c'est important ?

Ils ont installé ce nouveau chef dans l'application RedNote (une sorte de TikTok chinois très populaire) et ont fait des tests avec de vrais utilisateurs.

Les résultats sont impressionnants :

  • +1,03 % de gens qui lisent vraiment la réponse (au lieu de la survoler).
  • -2,81 % de gens qui doivent poser la question une deuxième fois (parce que la première réponse était mauvaise).
  • Zéro accident : Le système reste très sûr, sans inventer de fausses informations dangereuses.

En résumé

Cette recherche nous dit que pour créer une IA de recherche utile, il ne suffit pas de la rendre "intelligente". Il faut lui apprendre à respecter des règles strictes (ne pas mentir, ne pas être dangereux) avant de chercher à être créative.

C'est comme apprendre à un enfant à conduire : on ne lui apprend pas d'abord à faire des dérapages contrôlés (la créativité), on lui apprend d'abord à ne pas percuter les autres voitures (la sécurité). Une fois qu'il respecte le code de la route, on peut lui apprendre à conduire vite et bien.

SearchLLM, c'est ce nouveau conducteur qui respecte le code de la route tout en vous emmenant exactement là où vous voulez aller, sans vous faire perdre de temps.