MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente virtuale super intelligente, capace di parlare quasi tutte le lingue del mondo. Sembra fantastico, vero? Ma c'è un problema: spesso, quando parla italiano, spagnolo o giapponese, sembra un turista che ha studiato un po' di grammatica, non un vero madrelingua. Fa errori sottili, usa modi di dire strani o non capisce le sfumature culturali. È come se parlasse con un accento "robotico" che ti fa capire che non è di casa.

Questo articolo, presentato alla conferenza ICLR 2026, racconta la storia di come un team di ricercatori di Meta abbia deciso di risolvere questo problema creando MENLO.

Ecco di cosa si tratta, spiegato in modo semplice:

1. Il Problema: L'Assistente "Turista"

Pensa a un viaggiatore che visita un paese. Sa dire "buongiorno" e "grazie", ma se deve chiedere un consiglio su un piatto tipico locale o capire una battuta tra amici, si perde. Allo stesso modo, le Intelligenze Artificiali (LLM) sono brave a rispondere in molte lingue, ma spesso mancano di quella "natività" che le rende indistinguibili da un umano locale.

2. La Soluzione: MENLO (Il "Passaporto" della Natività)

I ricercatori hanno creato un nuovo sistema chiamato MENLO. Immagina MENLO come un giudice di un concorso di bellezza linguistica, ma molto sofisticato. Invece di guardare solo se la grammatica è corretta, MENLO valuta la risposta su quattro aspetti fondamentali, come se fosse un critico culinario che assaggia un piatto:

Fluenza (La grammatica): È il testo scorrevole? Ci sono errori di battitura? È come la base di un piatto: deve essere solida.
Tono (L'atteggiamento): È gentile, divertente o serio come ci si aspetta? È come il sale nel cibo: se ne metti troppo o troppo poco, il piatto è rovinato.
Tono Localizzato (Il "sapore" del luogo): Questo è il cuore della novità. La risposta usa modi di dire locali? Capisce le tradizioni? È come se un cuoco usasse ingredienti tipici della regione invece di quelli importati.
Fatti Localizzati (La conoscenza del territorio): Le informazioni sono vere per quel posto specifico? Se chiedi "qual è il miglior caffè a Roma?", la risposta deve essere diversa da quella per "Milano".

3. Come hanno fatto? (Il Laboratorio di Cucina)

Per creare questo sistema, non hanno solo chiesto all'AI di scrivere. Hanno fatto una cosa molto umana:

Hanno creato 6.423 domande in 47 lingue diverse (dall'arabo al cinese, dallo spagnolo al hindi).
Hanno assunto madrelingua reali (esperti locali) per leggere le risposte dell'AI e dare un voto da 1 a 5.
Hanno creato delle regole di valutazione (rubriche) molto precise, come una ricetta di cucina, per assicurarsi che tutti gli esperti valutassero allo stesso modo.

Il risultato è un dataset (un'enorme libreria di esempi) che insegna all'AI cosa significa "suonare come un locale".

4. L'AI che giudica l'AI (Il "Criceto" contro il "Maestro")

Volevano anche vedere se un'AI poteva fare da giudice al posto degli umani (perché pagare migliaia di persone costa molto).
Hanno scoperto che:

Se chiedi all'AI di giudicare una sola risposta alla volta, sbaglia spesso (è come chiedere a un bambino di dire se un quadro è bello senza averne visto un altro).
Se invece le mostri due risposte insieme e le chiedi di scegliere quale è meglio (come in un torneo di tennis), l'AI diventa molto più brava.
Hanno poi "addestrato" l'AI usando un metodo speciale chiamato Reinforcement Learning (apprendimento per rinforzo). È come se l'AI avesse fatto migliaia di partite di scacchi contro se stessa per imparare a fare il giudice perfetto. Alla fine, alcuni di questi giudici AI sono diventati quasi bravi quanto gli umani!

5. Il Risultato Finale: Un AI che parla "da vero"

La parte più bella è che hanno usato questi giudici AI addestrati per migliorare l'AI stessa.
È come se avessero preso un insegnante di lingue molto severo (il giudice) e gli avessero detto: "Correggi i compiti dello studente finché non sono perfetti".
Grazie a questo processo, l'AI ha imparato a scrivere in modo molto più naturale, con un tono più adatto e con fatti più precisi per ogni cultura.

In sintesi:
Questo paper ci dice che per avere un'AI davvero utile in tutto il mondo, non basta che sappia tradurre. Deve capire la cultura, il tono e le sfumature locali. Con MENLO, i ricercatori hanno creato la mappa e la bussola per insegnare alle macchine a parlare non solo "correttamente", ma naturalmente, come se fossero nate lì.

È un passo enorme per rendere la tecnologia più umana, inclusiva e vicina a noi, ovunque ci troviamo.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Garantire la qualità "nativa" delle risposte dei Large Language Model (LLM) in molteplici lingue è una sfida complessa. Le valutazioni tradizionali si basano spesso su test standardizzati o su metriche che misurano solo la naturalezza superficiale, ma non riescono a catturare le sfumature culturali, il contesto locale e lo stile di scrittura tipico di un madrelingua. Inoltre, la valutazione umana su scala massivamente multilingue è costosa e difficile da scalare. Esiste un divario significativo tra la capacità degli LLM di generare testo grammaticalmente corretto e la loro capacità di produrre risposte indistinguibili da quelle di un madrelingua, che includono adattamento culturale, tono appropriato e accuratezza fattuale locale.

2. Metodologia: Il Framework MENLO

Gli autori introducono MENLO (Multilingual Evaluation of Native-Like Output), un framework progettato per operationalizzare la valutazione della qualità delle risposte basandosi sui principi del design del pubblico (audience design) della sociolinguistica.

Dimensioni di Valutazione: MENLO scompone la qualità nativa in quattro dimensioni chiave:
1. Fluency (Fluidità): Coerenza, chiarezza, assenza di errori grammaticali.
2. Tone (Tono): Stile di scrittura generale, utilità, coinvolgimento ed equità.
3. Localized Tone (Tono Localizzato): Allineamento alle sfumature culturali, regionali e linguistiche specifiche (es. formalità, umorismo locale).
4. Localized Factuality (Fattualità Localizzata): Correttezza fattuale e radicamento nel contesto locale (es. conoscenze specifiche di una regione).
Costruzione del Dataset:
- Sono stati creati prompt parametrici in inglese che definiscono un pubblico target (es. "un amico di famiglia in [Paese]"), poi tradotti e localizzati in 47 varietà linguistiche.
- Il dataset contiene 6.423 coppie di prompt-risposta annotate da umani, con un totale di 81.014 annotazioni.
- Le annotazioni utilizzano una scala Likert da 1 a 5 e un sistema di preferenze (Win/Loss/Tie).
- È stato raggiunto un alto accordo inter-annotatore (Krippendorff's $\alpha = 0.84$ ).
Valutazione degli LLM come Giudici:
- Il paper confronta diverse strategie di valutazione automatica: Pointwise (valutazione singola) vs. Pairwise (valutazione comparativa di due risposte).
- Viene analizzato l'impatto dell'uso di rubriche di valutazione dettagliate (guideline strutturate) rispetto all'assenza di queste.
- Vengono testati modelli zero-shot, few-shot e modelli fine-tuned.

3. Contributi Chiave

Framework MENLO: Un approccio unificato basato sul design del pubblico per valutare la qualità nativa in quattro dimensioni, utilizzando template parametrici e linee guida di annotazione rigorose.
Dataset MENLO: La creazione di un dataset su larga scala con 6.423 coppie preferenziali annotate in 47 lingue, con un accordo umano superiore rispetto a lavori precedenti.
Analisi dei Giudici LLM: Dimostrazione che la valutazione pairwise (comparativa) supera significativamente quella pointwise anche senza esempi few-shot, e che l'uso di rubriche migliora le prestazioni, specialmente nella valutazione singola.
Training con Reinforcement Learning (RL): Sviluppo di giudici LLM addestrati con RL che raggiungono livelli di accordo comparabili a quelli umani, superando i modelli zero-shot e i modelli addestrati solo con Supervised Fine-Tuning (SFT).
Modelli di Ricompensa Generativi: Dimostrazione che i giudici addestrati possono fungere da modelli di ricompensa (Reward Models - RM) per migliorare direttamente le capacità multilingue dei modelli policy.

4. Risultati Principali

Valutazione Zero-Shot:
- La modalità Pairwise supera costantemente la modalità Pointwise. Ad esempio, su Qwen3-4B, la precisione delle preferenze passa dal 40,54% (pointwise zero-shot) al 57,13% (pairwise zero-shot).
- L'uso di rubriche fornisce un vantaggio significativo, specialmente per la valutazione pointwise (+4,3% di Macro-F1 in media), mentre il beneficio è minore per la pairwise (che è già ben ancorata dal confronto diretto).
Addestramento dei Giudici (SFT vs. RL):
- I modelli addestrati con Reinforcement Learning (RL) superano quelli addestrati con SFT.
- Un modello Llama4-Scout addestrato con RL e reward shaping (multi-task) raggiunge prestazioni complessive superiori ai migliori modelli API frontier (come GPT-4.1) su 47 lingue, con un accordo umano comparabile.
- L'approccio RL con reward shaping (che include ricompense parziali per errori vicini e bonus per l'allineamento delle preferenze) è cruciale per le prestazioni ottimali.
Dalle Giudici ai Reward Models:
- Utilizzando un giudice Qwen3-4B addestrato con RL come modello di ricompensa per il post-training di un modello policy (Qwen3-4B), si osservano miglioramenti significativi nella qualità delle risposte.
- Trovata Critica: Sebbene i giudici LLM e gli umani concordino sul fatto che le prestazioni migliorino, i giudici LLM tendono a sovrastimare l'entità del miglioramento rispetto agli umani (circa +0,6 punti di guadagno in più). Questo suggerisce che i giudici LLM potrebbero essere eccessivamente sicuri o adottare una "caricatura stilistica" della qualità nativa.
Performance per Lingua:
- Le prestazioni variano notevolmente tra le lingue (es. 82,1% di accuratezza per il turco vs 37,9% per il bengalese), ma non seguono strettamente la distinzione tra lingue ad alta e bassa risorsa.
- La dimensione Localized Factuality rimane la più difficile da valutare e migliorare, suggerendo la necessità di strumenti esterni (es. ricerca) per questo aspetto specifico.

5. Significato e Impatto

Il lavoro MENLO rappresenta un passo avanti significativo verso la valutazione e il miglioramento della competenza multilingue degli LLM.

Scalabilità: Fornisce un metodo scalabile per valutare la qualità "nativa" oltre la semplice correttezza grammaticale, integrando contesto culturale e locale.
Validazione del RL: Conferma che il Reinforcement Learning, combinato con valutazioni pairwise e reward shaping, è essenziale per addestrare giudici LLM affidabili in contesti multilingue.
Sfide Future: Evidenzia il divario persistente tra la valutazione automatica e quella umana, in particolare nella sovrastima delle migliorie da parte degli LLM. Questo indica che, sebbene i modelli addestrati con questo framework siano promettenti, la valutazione umana rimane il "gold standard" necessario per validare i miglioramenti reali nella competenza nativa.

In sintesi, MENLO offre un framework pratico e scalabile per allineare gli LLM a standard di qualità nativa in 47 lingue, ponendo le basi per futuri sistemi di valutazione e ottimizzazione più robusti e culturalmente consapevoli.

MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

1. Il Problema: L'Assistente "Turista"

2. La Soluzione: MENLO (Il "Passaporto" della Natività)

3. Come hanno fatto? (Il Laboratorio di Cucina)

4. L'AI che giudica l'AI (Il "Criceto" contro il "Maestro")

5. Il Risultato Finale: Un AI che parla "da vero"

1. Il Problema

2. Metodologia: Il Framework MENLO

3. Contributi Chiave

4. Risultati Principali

5. Significato e Impatto

Articoli simili

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering