Conditioning LLMs to Generate Code-Switched Text

Each language version is independently generated for its own context, not a direct translation.

Immaginate di avere due amici che parlano lingue diverse: uno parla inglese e l'altro spagnolo. Quando sono insieme, spesso mescolano le due lingue nella stessa frase, un fenomeno chiamato code-switching (o "cambio di codice"). È come se dicessero: "Ieri ho visto un film molto cool, ma il finale era un po' triste".

Per molto tempo, i computer (e in particolare le Intelligenze Artificiali o LLM) hanno avuto difficoltà a capire o a imitare questo comportamento. Per loro, le lingue sono come due scatole separate: non sanno mescolare i contenuti.

Questo articolo racconta come un gruppo di ricercatori dell'Università del Paese Basco ha insegnato a queste Intelligenze Artificiali a parlare "a metà" in modo naturale, creando un nuovo metodo per generare testi misti.

Ecco come funziona, spiegato con delle metafore semplici:

1. Il Problema: La Scatola Vuota

Immaginate di voler insegnare a un robot a cucinare un piatto che mescola ingredienti italiani e messicani. Il problema è che non avete mai visto nessuno farlo e non avete ricette scritte. Avete solo un mucchio di piatti finiti (testi misti trovati su internet) e un mucchio di ingredienti separati (testi solo inglesi o solo spagnoli).
I computer attuali, se gli chiedete di creare un piatto misto, spesso restano bloccati o producono qualcosa di strano (come un testo tutto in inglese o tutto in spagnolo).

2. La Soluzione: Il "Traduttore Inverso" (Back-Translation)

I ricercatori hanno avuto un'idea geniale, simile a un gioco di specchi:

Hanno preso dei testi misti reali (trovati su social media o in benchmark esistenti).
Hanno chiesto a un'IA molto potente di tradurli indietro in inglese puro, come se fosse un "traduttore inverso".
Ora hanno una coppia perfetta: da una parte la frase originale mista (es. "Hola, how are you?") e dall'altra la versione inglese pura (es. "Hello, how are you?").

Hanno creato così un libro di ricette parallelo (chiamato EN-CS) che non esisteva prima. È come se avessero detto al computer: "Guarda, questa è la versione inglese, e questa è la versione mista che corrisponde. Impara la connessione!".

3. L'Addestramento: Il "Tirocinio"

Una volta creato questo libro di ricette, hanno preso un'Intelligenza Artificiale (un modello Llama) e l'hanno "addestrata" (fine-tuning) usando queste coppie.
È come se avessero assunto un apprendista cuoco e gli avessero fatto leggere migliaia di volte: "Se vedi questo ingrediente inglese, aggiungi quel tocco spagnolo qui".
Il risultato? Il computer ha imparato a trasformare una frase inglese normale in una frase mista naturale, mantenendo il senso e la fluidità.

4. Il Risultato: Chi è il Migliore?

I ricercatori hanno messo alla prova il loro nuovo "cuoco addestrato" contro altri chef famosi (come GPT-4 o modelli di traduzione standard).

Il vincitore: Il modello addestrato con il loro metodo ha vinto. Ha creato frasi miste che gli umani hanno trovato più naturali e corrette.
I perdenti: I modelli più grandi che non erano stati addestrati specificamente (quelli che usano solo "prompt" o istruzioni veloci) tendevano a fallire, spesso producendo testi solo in inglese o con errori strani.

5. Il Problema della "Valutazione" (Come misurare la qualità?)

Qui arriva il punto più divertente e frustrante. Come fai a sapere se un piatto misto è buono?

I vecchi metri (Metriche automatiche): Sono come un robot che conta solo le parole. Se il computer dice "Ciao come stai" invece di "Hola, how are you", il vecchio metro pensa che sia perfetto perché le parole inglesi sono corrette. Non capisce che il piatto deve essere misto!
Il giudizio umano: Una persona reale dice: "No, questo non è code-switching, è solo inglese".
Il nuovo giudice (IA come giudice): Hanno usato un'altra Intelligenza Artificiale (GPT-4) per giudicare. È andata meglio dei vecchi metri, ma non è perfetta.

La scoperta fondamentale: I vecchi metodi di misurazione automatica non funzionano per questo compito. Sono come usare un metro per misurare il peso: non ha senso. Serve un modo nuovo per valutare se il computer sta davvero "mescolando" le lingue o se sta solo fingendo.

In Sintesi

I ricercatori hanno creato un metodo per insegnare alle Intelligenze Artificiali a parlare come fanno le persone reali in contesti bilingue, creando un nuovo dataset e addestrando i modelli su di esso. Hanno scoperto che:

Addestrare i modelli su dati specifici è fondamentale (non basta chiedere gentilmente all'IA).
I vecchi strumenti di valutazione sono ingannevoli e non capiscono la sfumatura del cambio di codice.
Serve più ricerca per creare strumenti che sappiano davvero giudicare la "naturalità" di queste conversazioni miste.

È un passo avanti importante per rendere le tecnologie linguistiche più inclusive e capaci di capire la complessità della comunicazione umana reale.

Each language version is independently generated for its own context, not a direct translation.

Ecco una sintesi tecnica dettagliata del paper "Conditioning LLMs to Generate Code-Switched Text" in italiano.

Titolo: Conditioning LLMs to Generate Code-Switched Text

Autori: Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa (HiTZ Center - Ixa, UPV/EHU)

1. Il Problema

Il Code-Switching (CS), ovvero la pratica di mescolare due o più lingue all'interno di un singolo enunciato, è un fenomeno linguistico comune nelle comunità multilingue. Tuttavia, rappresenta una sfida critica per l'elaborazione del linguaggio naturale (NLP) per diversi motivi:

Carenza di Dati: Esiste una scarsa disponibilità di dataset su larga scala e diversificati per l'addestramento e la valutazione robusta dei modelli CS.
Limiti dei Modelli Attuali: Nonostante i recenti progressi nei modelli linguistici multilingue (LLM), le capacità di questi modelli nel gestire o generare testo in CS sono limitate. Spesso i modelli tendono a produrre output monolingue o non naturali.
Mancanza di Metodologie di Valutazione: Le metriche automatiche standard per la generazione del linguaggio naturale (NLG) non riescono a catturare le sfumature del CS, mostrando una bassa correlazione con il giudizio umano.
Assenza di Dati Parallel: A differenza della traduzione automatica, non esistono dataset paralleli supervisionati (Monolingua $\leftrightarrow$ CS) per insegnare ai modelli a generare CS partendo da testo monolingue.

2. Metodologia Proposta

Gli autori propongono un framework innovativo per generare testo CS (specificamente nella coppia inglese-spagnolo) partendo da testo monolingue, basato su tre pilastri principali:

A. Creazione del Corpus Parallelo Pseudo (EN-CS)

Poiché mancano dati paralleli supervisionati, gli autori hanno creato un nuovo dataset denominato EN-CS:

Fonte Iniziale: Partono dal benchmark LINCE (dati CS reali da social media).
Back-Translation: Utilizzano un LLM potente (Command R di Cohere) per tradurre le frasi CS originali in inglese monolingue. Questo sfrutta la capacità degli LLM di convertire CS in monolingua meglio che viceversa.
Filtraggio e Post-Editing:
- Vengono filtrate le frasi che contengono solo prestiti linguistici isolati (non vero CS).
- Viene effettuata una post-edizione manuale (Gold Standard) su un sottoinsieme di dati per garantire la qualità delle traduzioni inglesi.
- Il risultato è un corpus parallelo: Inglese (Fonte) $\leftrightarrow$ CS (Target).

B. Addestramento e Fine-Tuning

Il task viene formulato come un problema di Traduzione Automatica (MT), dove l'inglese è la lingua sorgente e il CS è la lingua target.

Modelli: Vengono utilizzati modelli della famiglia Llama 3 (8B Base e 8B Instruct).
Tecnica: Viene applicato il QLoRA (Quantized Low-Rank Adaptation) per il fine-tuning efficiente.
Input/Output:
- Per il modello Base: Formato <X>=<Y> (dove Y è vuoto durante l'inferenza).
- Per il modello Instruct: Prompt di sistema che istruisce il modello a tradurre in CS.
Ottimizzazione: Viene implementata un'euristica di truncation (taglio) dell'output al primo segno di punteggiatura per evitare che il modello ricominci a tradurre o allucini contenuti extra.

C. Valutazione

La valutazione è condotta sia in dominio (sui dati LINCE) che out-of-domain (su testi creativi non fiction), utilizzando:

Valutazione Umana: Un torneo a coppie (pairwise) per determinare le preferenze umane.
Analisi degli Errori: Classificazione qualitativa degli errori (CS, Traduzione, Formato).
Metriche Automatiche: BLEU, BERTScore, chrF.
LLM come Giudice: Utilizzo di GPT-4o per valutare le coppie di output.

3. Risultati Chiave

Performance dei Modelli

Il Fine-Tuning è Cruciale: I modelli Llama 3 fine-tuned superano significativamente i modelli non addestrati (zero-shot/few-shot) e i modelli di grandi dimensioni come GPT-4o e Llama 3.3-70B in modalità few-shot.
Preferenze Umane: Il modello Llama 3 Base fine-tuned ottiene il punteggio più alto nelle preferenze umane, sia in dominio che out-of-domain.
Limiti dei Modelli Zero-Shot: I modelli grandi (GPT-4o, Llama 3.3-70B) tendono a produrre output completamente monolingue (un errore critico nel task CS) o a non seguire le istruzioni di switching, nonostante la loro fluidità.
Modelli Instruct vs Base: Curiosamente, il modello Instruct (addestrato con istruzioni) performa peggio del modello Base per questo task specifico, suggerendo che l'addestramento alle istruzioni possa aver degradato alcune capacità linguistiche di base necessarie per il CS.

Analisi degli Errori

I modelli fine-tuned commettono meno errori di tipo "CS" (es. output monolingue) rispetto ai baselines.
Gli errori più comuni nei modelli non fine-tuned sono l'assenza totale di switching (il modello traduce tutto in inglese o tutto in spagnolo).
I modelli fine-tuned tendono ad avere più errori di formato o di significato minori, ma riescono a mantenere la natura del codice misto.

Valutazione Automatica vs Umana

Metriche Tradizionali (BLEU, ecc.): Mostrano una correlazione quasi nulla ( $\rho \approx 0.09$ ) con il giudizio umano. Tendono a premiare i modelli che producono output monolingue (che si avvicinano alla parte inglese del riferimento) ignorando la necessità del CS.
LLM Judge (GPT-4o): Mostra una correlazione moderata ( $\rho \approx 0.35$ ) con l'umano, ma è ancora insufficiente. GPT tende a preferire la fluidità e lo stile, penalizzando meno gli errori di CS rispetto agli umani che considerano la presenza del CS come criterio primario.
Conclusione sulla Valutazione: Nessuna metrica attuale è adeguata per valutare la generazione CS; sono necessarie metodologie specializzate.

4. Contributi Principali

Metodologia di Generazione: Dimostrazione che il fine-tuning di LLM su dati pseudo-paralleli (creati via back-translation) è il metodo più efficace per generare CS naturale, superando i modelli proprietari più grandi.
Dataset EN-CS: Rilascio di un nuovo corpus parallelo Inglese-CS (circa 10k istanze di training) creato automaticamente e post-editato, fondamentale per la ricerca futura.
Analisi Critica delle Metriche: Evidenziazione del fatto che le metriche standard NLG falliscono nel task CS e che nemmeno i "JudgeLLM" attuali sono sufficientemente allineati con il giudizio umano su questo specifico aspetto.
Risorse Open Source: Codice e dataset rilasciati sotto licenza CC-BY-NC-SA.

5. Significato e Implicazioni

Questo lavoro sottolinea che per gestire fenomeni linguistici complessi come il code-switching, non basta scalare i modelli o usare prompt ingegnosi (few-shot); è necessario un addestramento specifico (fine-tuning) su dati pertinenti.
La ricerca apre nuove opportunità per:

Migliorare l'inclusività dei sistemi NLP per comunità multilingue.
Sviluppare strumenti di generazione più naturali per assistenti virtuali e chatbot in contesti bilingue.
Stimolare la creazione di nuove metriche di valutazione che catturino le sfumature sociolinguistiche e strutturali del CS, andando oltre la semplice similarità superficiale del testo.

In sintesi, il paper dimostra che l'approccio "fine-tuning su dati sintetici paralleli" è la chiave per sbloccare la capacità degli LLM di generare testo code-switched di alta qualità, superando le attuali limitazioni dei modelli generici.