Aligning Large Language Models with Searcher Preferences

Il paper introduce SearchLLM, il primo modello linguistico di grandi dimensioni progettato per la ricerca generativa aperta, che utilizza un sistema di ricompensa gerarchico e l'ottimizzazione GRPO per allineare le risposte alle preferenze degli utenti e garantire sicurezza, con risultati positivi dimostrati nel motore di ricerca di RedNote.

Wei Wu, Peilun Zhou, Liyi Chen, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong

Pubblicato 2026-03-12
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente personale super intelligente, come un maggiordomo digitale che conosce tutto il mondo. Fino a poco tempo fa, quando gli chiedevi qualcosa, questo assistente ti dava una lista di libri (i risultati di ricerca) e diceva: "Ecco, leggili tu e trova la risposta".

Ma ora, con l'avvento delle Intelligenze Artificiali avanzate (i "Large Language Models" o LLM), l'obiettivo è diverso: vuoi che l'assistente legga quei libri per te e ti scriva un riassunto perfetto, rispondendo direttamente alla tua domanda.

Il problema? Se l'assistente è troppo frettoloso, potrebbe inventare cose (allucinazioni), dirti informazioni vecchie di un anno, o rispondere in modo confuso. Inoltre, se gli chiedi qualcosa di pericoloso, deve sapere dire "no" invece di inventare una ricetta per fare esplosivi.

Gli autori di questo articolo, lavorando su RedNote (una sorta di "Instagram cinese" pieno di consigli di vita), hanno creato un nuovo assistente chiamato SearchLLM. Ecco come hanno fatto, spiegato con delle metafore semplici:

1. Il Problema: L'Assistente che "Sogna"

Immagina di chiedere al tuo assistente: "Come posso ascoltare la canzone 'Skibidi' gratis oggi?".

  • L'assistente vecchio (SFT): Ti dice: "Ascoltala alla radio stasera alle 10!" (Ma la canzone è uscita l'anno scorso! La radio non la trasmette più). Ti ha dato un'informazione vecchia e inutile.
  • L'assistente nuovo (SearchLLM): Guarda la data, capisce che la trasmissione è finita, e ti dice: "La trasmissione è finita, ma puoi ascoltarla ora su Spotify o YouTube".

2. La Soluzione: Il "Sistema di Ricompense a Due Livelli"

Per addestrare questo nuovo assistente, gli autori non gli hanno detto solo "fai un buon lavoro". Hanno creato un sistema di valutazione (una "punteggio") diviso in due livelli, come un esame di guida:

Livello 1: Le Regole di Sicurezza (Il "Freno di Emergenza")

Queste sono le regole non negoziabili. Se l'assistente sbaglia qui, il punteggio è zero, non importa quanto sia bello il resto della risposta.

  • Niente bugie: Non deve inventare fatti.
  • Sicurezza: Non deve dare consigli medici pericolosi (es. non dire di usare antibiotici per un fungo!).
  • Formato: La risposta deve essere leggibile e ordinata.
  • Metafora: È come il freno di un'auto. Se non funziona, l'auto non può partire, anche se il motore è potentissimo.

Livello 2: L'Esperienza Utente (Il "Motore Sportivo")

Una volta che le regole di sicurezza sono rispettate, l'assistente deve cercare di essere il più utile possibile.

  • Robustezza: Deve capire se la tua domanda è confusa o se le informazioni che ha trovato sono rumorose.
  • Ricchezza: Deve dare una risposta completa, non troppo breve.
  • Concisione: Non deve dire cose inutili o ripetere all'infinito.
  • Metafora: È come il volante e il motore. Una volta che l'auto è sicura, vuoi che guidi veloce, fluida e ti porti esattamente dove vuoi andare.

3. La Magia: La "Strategia del Cancellino" (Gated Aggregation)

Qui sta il trucco geniale. Spesso, quando si addestra un'intelligenza artificiale, se si cerca di renderla più "creativa" (Livello 2), diventa meno "sicura" (Livello 1). È come se un pilota cercasse di fare le curve a tutta velocità e finisse per uscire di strada.

Gli autori hanno creato un cancellino intelligente (Gated Aggregation):

  • Immagina che l'assistente stia scrivendo una risposta.
  • Il Livello 1 controlla ogni singola parola. Se c'è anche solo un errore di sicurezza o una bugia, il cancellino blocca tutto e la risposta viene scartata immediatamente.
  • Solo se la risposta è perfettamente sicura, il cancellino si apre e permette al Livello 2 di valutare quanto sia bella, utile e chiara.

In pratica, l'assistente impara che prima deve essere sicuro, poi può essere bravo. Non può mai sacrificare la sicurezza per essere più veloce o più divertente.

4. Il Risultato: Un Assistente che Funziona Davvero

Hanno messo questo nuovo assistente (SearchLLM) nella versione reale di RedNote, dove milioni di persone lo usano ogni giorno. I risultati sono stati fantastici:

  • Più utenti soddisfatti: Le persone hanno letto le risposte più a lungo (perché erano utili).
  • Meno ricerche fallite: Le persone hanno dovuto fare meno domande di nuovo (perché la prima risposta era quella giusta).
  • Zero disastri: Non ci sono state risposte pericolose o bugie gravi.

In Sintesi

Questo paper racconta come hanno preso un'intelligenza artificiale potente ma un po' "selvaggia" e l'hanno addestrata con un sistema di regole a due livelli: prima la sicurezza assoluta, poi la qualità. Usando un metodo matematico intelligente (chiamato GRPO con cancellino), hanno creato un motore di ricerca che non solo trova le informazioni, ma le capisce, le verifica e te le racconta in modo sicuro e utile, proprio come farebbe un esperto umano.