Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

Il paper introduce due nuovi dataset pre-addestramento aperti, SwallowCode e SwallowMath, creati attraverso un processo sistematico di riscrittura e raffinamento dei dati pubblici che, se utilizzati per l'addestramento continuo, migliorano significativamente le prestazioni dei modelli linguistici su compiti di programmazione e ragionamento matematico.

Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Masaki Kawamura, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Oi, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Jun Sakuma, Naoaki Okazaki

Pubblicato 2026-03-03
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un bambino molto intelligente (un'intelligenza artificiale) a diventare un grande programmatore e un genio della matematica. Il modo in cui lo fai è dargli da leggere milioni di libri e pagine web.

Il problema? Molti di questi "libri" online sono pieni di errori, scritti in modo confuso, o contengono solo frasi senza senso. Se dai a questo bambino un mucchio di libri sporchi e mal scritti, imparerà a fare errori, a confondersi e a diventare lento.

Questo è esattamente il problema che gli autori di questo studio hanno affrontato. Hanno creato due nuovi "libri di testo" digitali, chiamati SwallowCode (per la programmazione) e SwallowMath (per la matematica), che non si limitano a selezionare i libri migliori, ma li riscrivono per renderli perfetti.

Ecco come funziona, spiegato con delle analogie semplici:

1. Il Problema: La "Cucina Sporca"

Immagina che i dati originali trovati su internet (come The-Stack per il codice o Finemath per la matematica) siano come un grande magazzino di ingredienti.

  • Ci sono ingredienti freschi, ma ce ne sono molti marci.
  • Ci sono ricette scritte con la grafia illeggibile.
  • Ci sono istruzioni che dicono "aggiungi sale" senza dire quanto sale o in quale piatto.

I metodi precedenti cercavano solo di buttare via gli ingredienti marci. Ma così facendo, perdevano anche ingredienti buoni che erano solo un po' sporchi o scritti male. Era come scartare un pomodoro perché ha una macchia, invece di lavarlo.

2. La Soluzione: Il "Cuoco Magico" (Riscrittura)

Gli autori hanno inventato un nuovo metodo chiamato "Trasforma e Conserva" (Transform-and-Retain). Invece di buttare via gli ingredienti imperfetti, usano un "Cuoco Magico" (un'intelligenza artificiale molto avanzata) per pulirli e riscriverli.

Il processo per il codice (SwallowCode) funziona in quattro fasi, come una catena di montaggio di lusso:

  1. Il Controllo di Sicurezza (Sintassi): Prima di tutto, si controlla se la ricetta è scritta in una lingua che esiste. Se il codice non funziona nemmeno per il computer, viene scartato. È come buttare via un foglio di carta strappato.
  2. Il Controllo di Igiene (Pylint): Poi, un ispettore controlla se la ricetta è ordinata. Ci sono troppe note a margine? Le variabili hanno nomi strani? Se la "igiene" del codice è bassa, viene corretto.
  3. Il Riscrittore di Stile (SGCR): Qui entra in gioco il Cuoco Magico. Prende una ricetta scritta male e la riscrive rendendola elegante, chiara e professionale. Immagina di prendere una ricetta scritta su un tovagliolo sporco e trascriverla su una bella pergamena con istruzioni precise, nomi degli ingredienti chiari e passaggi ordinati.
  4. L'Ottimizzatore (SCOR): Infine, il Cuoco Magico guarda la ricetta e dice: "Ehi, questo passaggio è inutile, possiamo saltarlo", oppure "Manca un ingrediente fondamentale, aggiungiamolo". Rende il codice autonomo (funziona da solo senza bisogno di cose esterne) e più veloce.

Il risultato? Un dataset di 16,1 miliardi di "parole" (token) di codice Python che è pulito, perfetto e pronto all'uso.

3. La Matematica: Da "Rumore" a "Lezione Chiara"

Per la matematica (SwallowMath), il processo è simile. Immagina di prendere una domanda matematica trovata su un forum online, piena di pubblicità, commenti inutili e spiegazioni confuse.
Il Cuoco Magico:

  • Toglie le pubblicità e i titoli inutili.
  • Ripristina il contesto mancante (se manca una parte della domanda, la ricostruisce).
  • Riscrive la soluzione passo dopo passo, rendendola una lezione chiara e concisa, invece di un blocco di testo illeggibile.

4. I Risultati: Il Bambino Diventa un Genio

Hanno preso un modello di intelligenza artificiale già intelligente (Llama-3.1-8B) e lo hanno "allenato" con questi nuovi libri riscritti.

  • Prima: Con i vecchi dati sporchi, il modello faceva errori.
  • Dopo: Con i dati riscritti, il modello è diventato molto meglio.
    • Nella programmazione, ha risolto il 17% in più di problemi di codice complessi.
    • Nella matematica, ha migliorato la sua precisione del 12% su problemi di logica e del 7,6% su problemi molto difficili.

Perché è importante?

Fino a ora, per migliorare le intelligenze artificiali, le grandi aziende (come quelle che fanno i modelli più potenti) tenevano segreta la qualità dei loro dati. Questo studio dice: "Non serve avere segreti o ingredienti magici. Serve solo pulire e riscrivere bene ciò che abbiamo già".

Hanno reso tutto pubblico: i dati, il codice per pulirli e i risultati. È come se avessero aperto una scuola pubblica con i migliori libri di testo del mondo, scritti da un maestro perfetto, e detto a tutti: "Ecco, usate questi libri per insegnare ai vostri studenti, e vedrete che miglioreranno tutti".

In sintesi: Non serve cercare nuovi ingredienti, basta imparare a cucinare meglio quelli che abbiamo già.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →