Thompson Sampling via Fine-Tuning of LLMs

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover trovare il punto perfetto in un mondo immenso e caotico. Potrebbe essere la ricetta esatta per un nuovo farmaco, la sequenza di aminoacidi perfetta per una proteina stabile, o il codice esatto per un computer quantistico. Il problema? Questo "mondo" è così vasto che contiene più combinazioni possibili di quanti atomi esistano nell'universo.

Se provassi a cercare a caso, ci vorrebbe un'eternità. Se provassi a usare la matematica classica per trovare la strada migliore, ti bloccheresti perché non ci sono "strade" (gradienti) su cui scivolare: è tutto un terreno accidentato e senza mappa.

Ecco che entra in gioco il paper "TOSFIT" (Thompson Sampling via Fine-Tuning of LLMs), presentato alla conferenza ICLR 2026. Gli autori, ricercatori di IBM e dell'ETH Zurigo, hanno trovato un modo geniale per risolvere questo problema usando l'intelligenza artificiale generativa (come ChatGPT, ma più specializzato).

Ecco come funziona, spiegato con metafore semplici:

1. Il Problema: Trovare l'ago nel pagliaio cosmico

Immagina di essere un esploratore in una foresta infinita dove ogni albero è diverso. Devi trovare l'albero che produce il frutto più dolce.

Il metodo vecchio (Ottimizzazione Bayesiana classica): Costruisci una mappa mentale della foresta. Per decidere dove andare dopo, devi calcolare matematicamente quale punto ha la più alta probabilità di essere il migliore. In spazi piccoli, è facile. Ma in spazi enormi (come le sequenze di proteine), calcolare questo "punto migliore" richiede di controllare ogni singolo albero della foresta. È come cercare di contare ogni granello di sabbia sulla Terra per trovare quello d'oro: impossibile e troppo lento.

2. La Soluzione: Invece di calcolare, "sogna" e "impara"

Gli autori hanno detto: "Perché perdere tempo a calcolare il punto migliore? Perché non insegnare a un'intelligenza artificiale a 'sognare' direttamente il punto migliore?"

Hanno creato TOSFIT. Ecco la metafora:
Immagina di avere un cuciniere esperto (un Modello Linguistico o LLM) che sa già cucinare piatti decenti perché ha letto milioni di ricette (è stato "pre-addestrato").

Il trucco: Invece di fargli analizzare tutte le ricette possibili per trovare la migliore (impossibile), gli dici: "Cucina un piatto. Assaggialo. Se è buono, tieni il segreto della ricetta. Se è pessimo, ricordati di non rifarlo così".
Il Fine-Tuning (Raffinamento): Il cuciniere non si limita a cucinare a caso. Dopo ogni tentativo, il suo cervello viene aggiornato. Impara dal feedback (il "premio" o reward). Se il piatto era quasi perfetto, il suo cervello si modifica leggermente per essere ancora più bravo la prossima volta.

3. Come funziona TOSFIT in pratica

Il processo è un ciclo continuo di Sognare, Provare e Imparare:

Il Sogno (Generazione): Il modello LLM genera una nuova idea (una sequenza di proteine, un codice, una risposta a una domanda). Non sta cercando di massimizzare una formula matematica complessa; sta semplicemente "creando" basandosi su ciò che ha imparato finora.
Il Test (Valutazione): L'idea viene testata nel mondo reale (o simulato). Otteniamo un punteggio: "Quanto è buono?".
La Lezione (Fine-Tuning): Qui sta la magia. Invece di scartare il modello e ricominciare, addestriamo il modello su quel risultato. Se l'idea era buona, il modello impara a generarne di simili. Se era cattiva, impara a evitarle.
Ripeti: Il modello diventa sempre più bravo a "indovinare" le idee vincenti, senza mai dover calcolare l'intera mappa della foresta.

4. Perché è così speciale? (La Teoria dietro la magia)

Gli scienziati hanno dimostrato matematicamente che questo metodo funziona davvero bene.

Non si perde tempo: Evitano il calcolo impossibile della "migliore strada".
Usano la memoria: Sfruttano la conoscenza preesistente del modello (sapeva già cucinare bene prima di iniziare) e la affinano.
Bilanciano la curiosità e la sicurezza: Il modello impara a esplorare zone nuove (per scoprire cose inedite) ma anche a sfruttare ciò che sa già funzionare. È come un esploratore che sa dove sono le zone sicure, ma ha il coraggio di andare anche dove non è mai stato, guidato da una bussola interna che si aggiorna da sola.

5. I Risultati: Hanno vinto la gara!

Hanno testato TOSFIT su tre sfide molto diverse:

Migliorare risposte alle FAQ: Rendere le risposte più chiare e utili.
Cercare proteine stabili: Trovare sequenze di aminoacidi che resistono al calore (fondamentale per i farmaci).
Progettare circuiti quantistici: Scrivere codice per computer quantistici.

In tutti e tre i casi, TOSFIT ha battuto tutti gli altri metodi (dall'evoluzione artificiale al rinforzo classico). È stato più veloce (ha trovato la soluzione con meno tentativi) e più efficiente (ha sprecato meno tempo di calcolo).

In sintesi

Immagina di dover trovare la chiave perfetta per aprire un milione di lucchetti.

I vecchi metodi: Costruiscono un computer che prova a calcolare la forma di ogni chiave possibile. Si bloccano.
TOSFIT: Prende un fabbro esperto (l'IA), gli dà una chiave che ha funzionato un po', e gli dice: "Modifica la tua tecnica di forgia basandoti su questo risultato". Dopo pochi tentativi, il fabbro non ha bisogno di calcolare nulla: le sue mani sanno esattamente come forgiare la chiave perfetta.

È un modo intelligente per trasformare un problema matematico impossibile in un processo di apprendimento naturale e veloce.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Ottimizzazione Bayesiana in Spazi Discreti Non Strutturati

L'Ottimizzazione Bayesiana (BO) è un framework potente per l'ottimizzazione di funzioni a scatola nera costose, comunemente utilizzato nella scoperta di farmaci, nella progettazione di materiali e nell'automazione scientifica. Tuttavia, la BO tradizionale affronta una sfida fondamentale quando applicata a grandi spazi discreti non strutturati (es. sequenze di amminoacidi, codice per circuiti quantistici, testi):

Assenza di gradienti: In spazi continui, la massimizzazione della funzione di acquisizione (necessaria per selezionare il prossimo candidato) può essere risolta efficientemente tramite discesa del gradiente.
Intrattabilità combinatoria: In spazi discreti non strutturati, la massimizzazione della funzione di acquisizione richiederebbe l'iterazione su tutti i punti possibili, un'operazione computazionalmente proibitiva dato che lo spazio di ricerca può superare il numero di atomi nell'universo osservabile.
Limiti dei metodi esistenti: Le strategie attuali, come la ricerca evolutiva o l'ottimizzazione basata su RL, spesso mancano di garanzie teoriche solide o di efficienza nel campionamento.

2. Metodologia: TOSFIT (Thompson Sampling via Fine-Tuning)

Gli autori propongono TOSFIT, un approccio scalabile che trasforma il campionamento di Thompson (TS) in un processo di fine-tuning di un Large Language Model (LLM).

Concetto Chiave

Invece di massimizzare esplicitamente una funzione di acquisizione, TOSFIT parametrizza direttamente la Probabilità di Massimalità (PoM): la probabilità che un candidato generato sia il massimo globale.

Campionamento di Thompson: Tradizionalmente, il TS campiona una funzione di ricompensa dal posterior e seleziona il punto che la massimizza. In spazi discreti, questo è intrattabile.
Sostituzione con LLM: TOSFIT utilizza un LLM pre-addestrato (condizionato da prompt) come politica di generazione. Il modello genera candidati che sono trattati come campioni diretti dalla distribuzione PoM.
Adattamento Variational: Per allineare la politica del modello alla PoM del posterior (e garantire la convergenza), l'algoritmo adotta un approccio Variational Bayesian Optimistic Sampling (VBOS). Invece di ottimizzare da una politica uniforme, TOSFIT inizializza il modello con le conoscenze pregresse (pre-training) e lo adatta gradualmente verso il posterior utilizzando l'obiettivo VBOS.

Componenti Algoritmici

Modello di Ricompensa: Viene utilizzato un Processo Gaussiano (GP) lineare su feature map (embedding) derivati dall'LLM. Questo permette inferenze in forma chiusa e scalabili.
Ottimizzazione della Politica: L'obiettivo VBOS massimizza una funzione che bilancia la ricompensa attesa ( $\mu_x$ $μ_{x}$ ) e un bonus di esplorazione basato sull'entropia e l'incertezza ( $\sigma_x$ $σ_{x}$ ).
- La funzione obiettivo è: $V(\pi) = \mathbb{E}_{x \sim \pi} [\mu_x + \sqrt{-2 \ln(\pi_x)} \cdot \sigma_x]$ .
Stabilizzazione del Gradiente: Per aggiornare i pesi dell'LLM, gli autori derivano gradienti espliciti dell'obiettivo VBOS. Per ridurre la varianza, utilizzano una variante della tecnica Reinforce Leave-One-Out (RLOO) normalizzata, equivalente all'avantage function usata in GRPO (Group Relative Policy Optimization).
Inizializzazione e Adattamento: L'algoritmo inizia con un modello pre-addestrato (che fornisce un prior forte) e applica un fine-tuning cauto (learning rate basso) per evitare di dimenticare le conoscenze pregresse mentre si adatta al posterior.

3. Contributi Teorici

Il paper offre contributi teorici significativi che giustificano l'approccio:

Nuovo Limite di Regret: Gli autori derivano un nuovo limite di regret cumulativo per una formulazione variazionale del Thompson Sampling. Il limite passa da $\tilde{O}(\sqrt{T|X|})$ (che è banale in spazi enormi) a $\tilde{O}(\sqrt{T\gamma_T})$ , dove $\gamma_T$ è il guadagno informativo massimo. Questo limite è indipendente dalla dimensione dello spazio $|X|$ e dipende solo dalla complessità del kernel.
Analisi dell'Approssimazione: Viene dimostrato che l'errore di approssimazione tra la politica appresa $\pi_t$ e il massimo esatto $\tilde{\pi}_t$ è misurabile tramite una divergenza di Bregman. Questo sottolinea l'importanza critica di inizializzare la politica con un prior forte (pre-training) per mantenere questa divergenza bassa.
Garanzie di Convergenza: Il metodo garantisce un regret sub-lineare, assicurando prestazioni asintoticamente ottimali anche in spazi discreti combinatori.

4. Risultati Sperimentali

TOSFIT è stato valutato su tre compiti diversificati, confrontandosi con metodi di Ottimizzazione Bayesiana, Reinforcement Learning (RL) e Ricerca Evolutiva:

Raffinamento di Risposte FAQ: Ottimizzazione di testo per allineamento semantico.
Ricerca di Proteine Termicamente Stabili: Progettazione di sequenze di amminoacidi (spazio di ricerca enorme).
Progettazione di Circuiti Quantistici: Generazione di codice Qiskit valido per preparare stati a bassa energia.

Risultati Chiave:

Efficienza di Campionamento (Sample Efficiency): TOSFIT supera tutti i baselines (inclusi FIBO, Actor-Critic, Evoluzione, e Thompson Sampling "post-generazione") trovando le migliori soluzioni con meno valutazioni della funzione di ricompensa.
Efficienza Computazionale: Nonostante il costo del fine-tuning, TOSFIT è computazionalmente più efficiente dei metodi basati su contesto (come FIBO) che richiedono memoria quadratica rispetto al numero di round.
Scalabilità: Il metodo scala bene con modelli LLM più grandi (da 0.6B a 8B parametri) e funziona efficacemente in modalità batch (ottimizzazione parallela).
Robustezza: L'uso di un prior forte e un adattamento cauto previene il collasso della diversità (diversity collapse), mantenendo un equilibrio stabile tra esplorazione e sfruttamento.

5. Significato e Impatto

Il lavoro di TOSFIT rappresenta un passo avanti fondamentale nell'integrazione dei Foundation Models con l'Ottimizzazione Bayesiana:

Superamento dei Limiti di Scalabilità: Risolve il problema intrattabile della massimizzazione della funzione di acquisizione in spazi discreti non strutturati, aprendo la strada all'ottimizzazione di problemi complessi come la progettazione di farmaci e materiali.
Nuovo Paradigma: Sposta il focus dall'ottimizzazione di una funzione di acquisizione esplicita all'adattamento diretto di una politica generativa verso il posterior di massimalità.
Validazione Teorica-Pratica: Combina garanzie teoriche solide (limiti di regret) con prestazioni state-of-the-art in scenari reali, dimostrando che l'uso di prior pre-addestrati è essenziale per l'ottimizzazione in spazi ad alta dimensionalità.

In sintesi, TOSFIT dimostra che il fine-tuning di LLM, guidato da principi bayesiani e variational, è una strategia potente ed efficiente per la scoperta automatica in spazi di ricerca complessi e non strutturati.