MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

이 논문은 47 개 언어에 걸친 6,423 개의 인간 주석 선호도 데이터셋과 청중 설계 원리를 기반으로 한 MENLO 평가 프레임워크를 제안하여, 다국어 LLM 의 원어민 수준의 품질을 평가하고 강화 학습 등을 통해 모델 성능을 향상시키는 방법을 제시합니다.

Chenxi Whitehouse, Sebastian Ruder, Tony Lin, Oksana Kurylo, Haruka Takagi, Janice Lam, Nicolò Busetto, Denise Diaz, Francisco Guzmán

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌍 MENLO: 전 세계 47 개 언어의 '현지인' 같은 AI 를 만드는 비밀

이 논문은 **"AI 가 전 세계 다양한 언어로 대화할 때, 정말 현지인처럼 자연스러운가?"**라는 질문에 답하기 위해 Meta 의 연구팀이 개발한 MENLO라는 새로운 시스템을 소개합니다.

기존의 AI 평가는 "문법 맞냐?", "사실 맞냐?" 정도만 봤다면, MENLO 는 **"이 사람이 그 나라 사람이라면 이렇게 말했을까?"**라는 훨씬 더 섬세한 기준을 도입했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "외국인처럼 말하지 않는 AI"

지금까지의 AI 는 영어로 공부해서 다른 언어를 말할 때, 마치 외국인이 한국어를 배우는 과정과 비슷했습니다. 문법은 맞지만, 현지인들이 일상에서 쓰는 뉘앙스나 유머, 문화적 맥락이 어색한 경우가 많았죠.

  • 비유: 한국 드라마를 번역할 때, "밥 먹었어?"를 "Did you eat?"라고 직역하면 문법상 틀리지 않지만, 한국인 친구에게 말하기엔 너무 딱딱하고 어색하죠. AI 도 마찬가지였습니다.

2. 해결책: MENLO (현지인 평가단)

연구팀은 MENLO라는 시스템을 만들었습니다. 이는 단순히 점수를 매기는 것이 아니라, 47 개 언어의 현지인 평가단을 고용하여 AI 의 답변을 꼼꼼히 검토하는 방식입니다.

평가 기준은 크게 4 가지로 나뉩니다.

  1. 유창함 (Fluency): 문장이 매끄럽고 문법 오류가 없는가? (글쓰기 실력)
  2. 톤 (Tone): 말투가 적절하고 도움이 되는가? (친절함)
  3. 현지화된 톤 (Localized Tone): 그 나라의 문화, 유머, 존댓말/반말 사용이 적절한가? (현지인 같은 느낌)
  4. 현지화된 사실성 (Localized Factuality): 그 나라의 상황이나 지리에 맞는 사실을 말하는가? (현실감)

💡 핵심 아이디어: "누구에게 말하는가?"를 정해줍니다.
예를 들어, "친구네 가족 모임에서 두 번째 접시를 요청하는 법"이라는 질문을 할 때, 미국인 친구에게 말하는지 일본인 친구에게 말하는지에 따라 답변의 톤이 완전히 달라져야 합니다. MENLO 는 이런 '상황'을 고려해 AI 를 평가합니다.

3. 실험: AI 심판 vs 인간 심판

연구팀은 6,400 개 이상의 질문과 답변 쌍을 47 개 언어로 만들어 인간 전문가들이 평가했습니다. 그 결과 놀라운 사실을 발견했습니다.

  • 한 번에 하나만 보는 것보다, 두 개를 비교하면 훨씬 잘 봅니다.

    • 비유: 시험지를 볼 때, "이 답이 100 점인가?"라고 혼자 판단하는 것보다, **"A 와 B 중 어떤 답이 더 좋은가?"**라고 비교하면 훨씬 정확하게 판단할 수 있습니다.
    • AI 심판들도 두 개의 답변을 나란히 놓고 비교하게 하면, 인간 전문가의 수준에 훨씬 가까워졌습니다.
  • AI 심판도 훈련이 필요합니다.

    • 처음에는 AI 심판이 인간보다 못 했지만, **강화 학습 (RL)**이라는 훈련을 시키니 인간과 거의 비슷한 수준으로 성장했습니다. 특히 여러 언어를 한꺼번에 배우게 하는 '멀티태스킹' 훈련이 효과적이었습니다.

4. 결과: AI 가 AI 를 가르치다 (상호작용)

가장 흥미로운 부분은, 이렇게 훈련된 AI 심판을 다시 **AI 학생 (정책 모델)**을 가르치는 '선생님'으로 쓰였다는 점입니다.

  • 과정: 훈련된 AI 심판이 "이 답변이 더 현지인 같아!"라고 점수를 매겨주면, AI 학생은 그 피드백을 받아 더 자연스러운 답변을 만들도록 스스로를 수정합니다.
  • 결과: AI 학생의 답변 품질이 눈에 띄게 향상되었습니다.
  • 주의할 점: AI 심판은 인간보다 과대평가하는 경향이 있었습니다. "이게 정말 인간이 쓴 것 같아?"라고 생각할 때, AI 는 "완벽해!"라고 점수를 너무 높게 주는 경우가 있었죠. 이는 인간과 AI 의 기준 차이가 아직 완전히 좁혀지지 않았음을 보여줍니다.

5. 요약: 왜 이 연구가 중요할까요?

이 연구는 AI 가 전 세계 어디서나 현지인처럼 자연스럽게 대화할 수 있게 하는 길을 열었습니다.

  • 기존: "문법만 맞으면 OK"
  • MENLO: "문화, 유머, 상황까지 고려해서 현지인처럼 말해야 OK"

이제 AI 는 단순히 정보를 전달하는 기계가 아니라, 한국인에게는 한국인처럼, 브라질인에게는 브라질인처럼 정서적으로 공감할 수 있는 진정한 대화相棒이 될 수 있는 기반을 마련했습니다.


한 줄 요약:

"AI 가 전 세계 47 개 언어로 현지인처럼 자연스럽게 말하려면, 두 개의 답변을 비교하게 하고 현지인 평가단으로 훈련시켜야 한다!"