La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

이 논문은 스페인어권 커뮤니티의 언어적·문화적 다양성을 반영한 생성형 대규모 언어 모델 (LLM) 의 평가 표준을 확립하기 위해 바스크어, 카탈로니아어, 갈리시아어 및 다양한 스페인어 변종을 포함한 66 개의 데이터셋과 50 개의 모델을 평가한 최초의 오픈소스 리더보드인 'La Leaderboard'를 소개합니다.

María Grandury, Javier Aula-Blasco, Júlia Falcão, Clémentine Fourrier, Miguel González, Gonzalo Martínez, Gonzalo Santamaría, Rodrigo Agerri, Nuria Aldama, Luis Chiruzzo, Javier Conde, Helena Gómez, Marta Guerrero, Guido Ivetta, Natalia López, Flor Miriam Plaza-del-Arco, María Teresa Martín-Valdivia, Helena Montoro, Carmen Muñoz, Pedro Reviriego, Leire Rosado, Alejandro Vaca, María Estrella Vallecillo-Rodríguez, Jorge Vallego, Irune Zubiaga

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LA LEADERBOARD(라 리더보드)"**이라는 새로운 프로젝트에 대해 설명합니다. 이 프로젝트를 쉽게 이해할 수 있도록 일상적인 비유와 이야기로 풀어보겠습니다.

🌍 1. 왜 이 프로젝트가 필요한가요? (기존의 문제점)

지금까지 인공지능 (LLM) 의 실력을 측정하는 '시험지'나 '순위표'는 대부분 영어로만 만들어져 있었습니다. 마치 전 세계 학생들의 실력을 측정할 때, 오직 영어 시험지만 주고 "영어 점수가 낮으면 지능이 낮은 거야"라고 판단하는 것과 비슷합니다.

스페인어는 전 세계 6 억 명 이상이 사용하는 거대한 언어이지만, 그 안에도 스페인, 멕시코, 아르헨티나, 우루과이 등 지역마다 사투리가 다르고, 스페인 내에서는 카탈로니아어, 바스크어, 갈리시아어 같은 다른 언어도 공존합니다.

기존의 시험지는 이 다양한 언어와 문화를 제대로 반영하지 못했습니다. 기계 번역으로 만든 문제들은 문화적 뉘앙스를 놓치고, 실제 현지인이 만든 데이터가 부족했습니다. 그래서 **"스페인어권 사람들의 진짜 실력을 제대로 측정할 수 있는 공정한 시험지가 필요하다!"**는 목소리가 나왔습니다.

🏆 2. LA LEADERBOARD 란 무엇인가요? (해결책)

이 논문은 바로 그 공정한 시험지를 만든 이야기를 담고 있습니다.

  • 커뮤니티가 만든 운동: 한 두 명의 연구자가 만든 게 아니라, 13 개의 연구팀이 힘을 합쳐 오픈소스 (누구나 볼 수 있고 참여할 수 있는) 리더보드를 만들었습니다.
  • 다양한 언어를 아우름: 스페인어뿐만 아니라 스페인의 공식 언어인 카탈로니아어, 바스크어, 갈리시아어까지 총 4 가지 언어를 평가합니다.
  • 66 가지의 다양한 시험: 단순히 문법만 묻는 게 아니라, 의학, 법률, 농담 이해, 뉴스 요약, 윤리적 판단 등 현실에서 쓰이는 66 가지의 다양한 과제를 포함합니다.

비유: 기존의 리더보드가 "영어만 잘하는 학생만 뽑는 입시"였다면, LA LEADERBOARD 는 "스페인어권 각 지역의 사투리와 문화를 모두 이해하는 학생을 찾아내는 종합 스포츠 대회"와 같습니다.

📝 3. 어떻게 시험을 치나요? (방법론)

이 프로젝트는 단순히 점수를 매기는 것을 넘어, 환경과 효율성까지 고려합니다.

  • 적은 예제 (Few-shot): 보통 인공지능은 시험을 볼 때 많은 예제 (문제 풀이 샘플) 를 보여주고 학습시킵니다. 하지만 이 프로젝트는 환경 오염 (에너지 소비) 을 줄이고 더 많은 연구자가 참여할 수 있도록 예제 수를 줄였습니다. 마치 "긴 설명 없이 핵심만 빠르게 테스트하는 것"과 같습니다.
  • 문화적 정확성: 기계 번역이 아닌, 현지 원어민이 직접 검토하고 수정한 데이터를 사용했습니다. 이는 문화적 뉘앙스를 놓치지 않기 위함입니다.

📊 4. 어떤 결과가 나왔나요? (결과 분석)

50 개의 다양한 인공지능 모델을 이 리더보드에 투입해 평가했습니다.

  • 강자 (Top Models): 구글의 Gemma, 메타의 Llama, 알리바바의 Qwen 시리즈가 전반적으로 높은 점수를 받았습니다. 특히 모델 크기가 큰 것들이 좋았습니다.
  • 지역 특화 모델: 하지만 스페인이나 유럽 연구진이 만든 SalamandraEuroLLM 같은 모델들은 특정 언어 (바스크어, 갈리시아어) 에서 매우 뛰어난 성능을 보였습니다. 이는 "전 세계적으로 큰 모델도 좋지만, 자신의 언어와 문화에 맞춰 훈련된 모델이 특정 영역에서는 더 잘할 수 있다"는 것을 보여줍니다.
  • 에너지 소비: 모델이 크고 성능이 좋을수록 전기를 많이 먹습니다. 하지만 연구팀은 이 에너지 소비량도 측정하여, 성능과 환경 부담 사이의 균형을 고민하게 만들었습니다.

🚀 5. 앞으로의 목표 (미래)

이 리더보드는 끝이 아닙니다.

  • 더 많은 언어 추가: 현재는 스페인어권 언어가 주를 이루지만, 향후 라틴아메리카의 원주민 언어 (과라니어, 나와틀어 등) 도 포함할 계획입니다.
  • 지속적인 발전: 새로운 데이터가 기부되면 계속 업데이트되며, 누구나 자신의 모델을 제출해 순위를 확인할 수 있습니다.

💡 요약: 이 논문이 우리에게 주는 메시지

이 논문은 **"인공지능은 전 세계 모든 언어와 문화를 공정하게 이해해야 한다"**는 메시지를 전달합니다.

마치 **"모든 학생이 영어 시험만 보는 게 아니라, 각자의 모국어와 문화적 배경을 존중하는 시험을 봐야 진정한 실력을 알 수 있다"**는 뜻입니다. LA LEADERBOARD 는 스페인어권 커뮤니티를 위한 첫걸음이자, 전 세계 다른 언어권에도 영감을 주는 공정한 인공지능 평가의 새로운 기준이 될 것입니다.