MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

Il paper introduce MENLO, un framework e un dataset di 6.423 coppie preferenziali annotate da umani in 47 lingue per valutare la qualità nativa delle risposte degli LLM, dimostrando che l'addestramento con reinforcement learning migliora significativamente sia i giudici automatici che la proficienza multilingue dei modelli, pur lasciando margini di miglioramento rispetto al giudizio umano.

Chenxi Whitehouse, Sebastian Ruder, Tony Lin, Oksana Kurylo, Haruka Takagi, Janice Lam, Nicolò Busetto, Denise Diaz, Francisco Guzmán

Pubblicato 2026-03-03
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente virtuale super intelligente, capace di parlare quasi tutte le lingue del mondo. Sembra fantastico, vero? Ma c'è un problema: spesso, quando parla italiano, spagnolo o giapponese, sembra un turista che ha studiato un po' di grammatica, non un vero madrelingua. Fa errori sottili, usa modi di dire strani o non capisce le sfumature culturali. È come se parlasse con un accento "robotico" che ti fa capire che non è di casa.

Questo articolo, presentato alla conferenza ICLR 2026, racconta la storia di come un team di ricercatori di Meta abbia deciso di risolvere questo problema creando MENLO.

Ecco di cosa si tratta, spiegato in modo semplice:

1. Il Problema: L'Assistente "Turista"

Pensa a un viaggiatore che visita un paese. Sa dire "buongiorno" e "grazie", ma se deve chiedere un consiglio su un piatto tipico locale o capire una battuta tra amici, si perde. Allo stesso modo, le Intelligenze Artificiali (LLM) sono brave a rispondere in molte lingue, ma spesso mancano di quella "natività" che le rende indistinguibili da un umano locale.

2. La Soluzione: MENLO (Il "Passaporto" della Natività)

I ricercatori hanno creato un nuovo sistema chiamato MENLO. Immagina MENLO come un giudice di un concorso di bellezza linguistica, ma molto sofisticato. Invece di guardare solo se la grammatica è corretta, MENLO valuta la risposta su quattro aspetti fondamentali, come se fosse un critico culinario che assaggia un piatto:

  • Fluenza (La grammatica): È il testo scorrevole? Ci sono errori di battitura? È come la base di un piatto: deve essere solida.
  • Tono (L'atteggiamento): È gentile, divertente o serio come ci si aspetta? È come il sale nel cibo: se ne metti troppo o troppo poco, il piatto è rovinato.
  • Tono Localizzato (Il "sapore" del luogo): Questo è il cuore della novità. La risposta usa modi di dire locali? Capisce le tradizioni? È come se un cuoco usasse ingredienti tipici della regione invece di quelli importati.
  • Fatti Localizzati (La conoscenza del territorio): Le informazioni sono vere per quel posto specifico? Se chiedi "qual è il miglior caffè a Roma?", la risposta deve essere diversa da quella per "Milano".

3. Come hanno fatto? (Il Laboratorio di Cucina)

Per creare questo sistema, non hanno solo chiesto all'AI di scrivere. Hanno fatto una cosa molto umana:

  • Hanno creato 6.423 domande in 47 lingue diverse (dall'arabo al cinese, dallo spagnolo al hindi).
  • Hanno assunto madrelingua reali (esperti locali) per leggere le risposte dell'AI e dare un voto da 1 a 5.
  • Hanno creato delle regole di valutazione (rubriche) molto precise, come una ricetta di cucina, per assicurarsi che tutti gli esperti valutassero allo stesso modo.

Il risultato è un dataset (un'enorme libreria di esempi) che insegna all'AI cosa significa "suonare come un locale".

4. L'AI che giudica l'AI (Il "Criceto" contro il "Maestro")

Volevano anche vedere se un'AI poteva fare da giudice al posto degli umani (perché pagare migliaia di persone costa molto).
Hanno scoperto che:

  • Se chiedi all'AI di giudicare una sola risposta alla volta, sbaglia spesso (è come chiedere a un bambino di dire se un quadro è bello senza averne visto un altro).
  • Se invece le mostri due risposte insieme e le chiedi di scegliere quale è meglio (come in un torneo di tennis), l'AI diventa molto più brava.
  • Hanno poi "addestrato" l'AI usando un metodo speciale chiamato Reinforcement Learning (apprendimento per rinforzo). È come se l'AI avesse fatto migliaia di partite di scacchi contro se stessa per imparare a fare il giudice perfetto. Alla fine, alcuni di questi giudici AI sono diventati quasi bravi quanto gli umani!

5. Il Risultato Finale: Un AI che parla "da vero"

La parte più bella è che hanno usato questi giudici AI addestrati per migliorare l'AI stessa.
È come se avessero preso un insegnante di lingue molto severo (il giudice) e gli avessero detto: "Correggi i compiti dello studente finché non sono perfetti".
Grazie a questo processo, l'AI ha imparato a scrivere in modo molto più naturale, con un tono più adatto e con fatti più precisi per ogni cultura.

In sintesi:
Questo paper ci dice che per avere un'AI davvero utile in tutto il mondo, non basta che sappia tradurre. Deve capire la cultura, il tono e le sfumature locali. Con MENLO, i ricercatori hanno creato la mappa e la bussola per insegnare alle macchine a parlare non solo "correttamente", ma naturalmente, come se fossero nate lì.

È un passo enorme per rendere la tecnologia più umana, inclusiva e vicina a noi, ovunque ci troviamo.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →