Evaluating the Diversity and Quality of LLM Generated Content

이 논문은 선호도 튜닝 (RLHF 등) 을 거친 LLM 이 기존 지표로는 다양성이 낮아 보이지만 품질 기준을 충족하는 '유효 의미적 다양성' 측면에서는 SFT 나 베이스 모델보다 우수함을 증명하고, 모델 크기와 파라미터 효율성 간의 트레이드오프를 분석하여 고품질 다양성이 필요한 응용 분야에 대한 실용적 시사점을 제시합니다.

Alexander Shypula, Shuo Li, Botong Zhang, Vishakh Padmakumar, Kayo Yin, Osbert Bastani

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최근 인공지능 (LLM) 이 발전하면서 생긴 '다양성 vs 품질'이라는 딜레마를 해결하기 위한 새로운 방법을 제시합니다.

간단히 말해, **"아무리 다양한 이야기를 만들어도 내용이 엉망이면 소용없고, 반대로 내용이 완벽해도 다 똑같으면 재미없다"**는 문제를 다루고 있습니다.

이 논문의 핵심 내용을 일상적인 비유로 설명해 드릴게요.


1. 문제: "다양하지만 쓸모없는 것"과 "쓸모있지만 똑같은 것"

과거에는 AI 가 다양한 답변을 내놓는 것만 중요하게 여겼습니다. 하지만 최근 AI 는 인간의 선호도를 학습 (RLHF 등) 시켜 더 똑똑해지면서, 질은 좋아졌는데 답변이 모두 비슷해져 버리는 현상이 생겼습니다.

  • 비유: Imagine you are a chef.
    • 기존 AI (Base Model): 온갖 재료를 다 섞어서 요리를 만들지만, 10 개 중 8 개는 맛이 없거나 (품질 낮음), 10 개 중 9 개는 다 같은 맛입니다 (다양성 낮음).
    • 최근 AI (Preference-tuned): 맛있는 요리를 잘 만들지만, 10 개 중 9 개가 '불고기'만 나옵니다. (품질은 높으나 다양성 부족).

연구자들은 **"품질이 보장된 상태에서의 진정한 다양성"**을 측정할 필요가 있다고 말합니다. 이를 **'효과적인 의미적 다양성 (Effective Semantic Diversity)'**이라고 부릅니다.

2. 해결책: "맛있는 요리만 골라낸 뒤, 그 다양성을 재다"

이 논문은 새로운 측정 도구를 개발했습니다.

  • 기존 방식: 모든 요리를 다 모아 "이 요리의 재료 조합이 얼마나 다양한가?"를 재는 거예요. (맛없는 요리도 포함되므로 결과가 왜곡됨)
  • 이 논문의 방식:
    1. 먼저 "맛있는 요리 (유효한 답변)"만 골라냅니다. (품질 필터링)
    2. 그다음, 맛있는 요리들끼리 "이건 불고기, 저건 김치찌개, 또 다른 건 파스타"처럼 진짜로 다른지를 확인합니다.

이 방식은 특히 코딩 (프로그래밍) 분야에서 빛을 발합니다.

  • 비유: AI 가 코드를 작성할 때, 실행 오류가 나지 않고 (품질), 입력된 숫자에 따라 정답을 내는 프로그램들만 골라낸 뒤, 그 프로그램들이 진짜로 다른 알고리즘을 쓰고 있는지 확인하는 것입니다.

3. 놀라운 발견 (Counterintuitive Results)

이 새로운 방식으로 실험해 보니, 우리가 생각했던 것과 정반대의 결과가 나왔습니다.

  • 기존의 오해: "AI 를 인간 취향에 맞게 학습시키면 (RLHF 등), AI 가 너무 안전해져서 답이 다 똑같아질 것이다."
  • 실제 결과: "오히려 학습된 AI 가 더 다양한 '맛있는' 답변을 내놓는다!"
    • 이유: 학습된 AI 는 엉망인 답변 (맛없는 요리) 을 거의 내지 않기 때문에, 유효한 답변의 총량이 엄청나게 늘어납니다. 그 덕분에 결과적으로 더 다양한 아이디어를 얻을 수 있게 된 것입니다.
    • 비유: 학습된 AI 는 '맛없는 요리'를 아예 안 만들고, '맛있는 요리'만 100 개나 만들어냅니다. 그중에서 100 가지 다른 메뉴가 나올 수 있는 확률이, '맛없는 요리' 90 개와 '맛있는 요리' 10 개만 만드는 AI 보다 훨씬 높다는 뜻입니다.

4. 모델 크기와 효율성: "작은 공장이 더 효율적일 수도 있다"

또 다른 흥미로운 점은 모델의 크기입니다.

  • 큰 모델 (70B 등): 한 번에 더 다양하고 훌륭한 답을 냅니다.
  • 작은 모델 (8B 등): 한 번에 내는 답은 덜 다양할 수 있지만, 비용 대비 효율이 훨씬 좋습니다.
  • 비유: 거대한 공장 (큰 모델) 은 한 번에 100 개의 독특한 제품을 만들지만, 작은 공방 (작은 모델) 은 10 개만 만들어도 그중 9 개가 독특합니다. 만약 예산이 제한되어 있다면, 작은 공방을 여러 번 돌리는 것이 더 경제적이고 효율적일 수 있습니다.

5. 결론: 무엇을 배울 수 있을까요?

이 논문은 우리에게 다음과 같은 교훈을 줍니다.

  1. 다양성만 쫓지 마세요: 무작위성만 높이면 쓸모없는 쓰레기가 쏟아집니다. 품질이 보장된 다양성이 진짜 가치입니다.
  2. 학습된 AI 는 무서워하지 마세요: 인간 취향에 맞춰 학습된 AI 가 오히려 더 창의적이고 다양한 '좋은' 답변을 줄 수 있습니다.
  3. 작은 AI 도 쓸모가 있습니다: 거대한 모델을 무조건 쓰는 것보다, 목적에 맞는 작은 모델을 여러 번 실행하는 것이 더 효율적일 수 있습니다.

한 줄 요약:

"AI 가 만들어낸 수많은 답변 중에서 **'진짜로 쓸모 있는 것'**만 골라내서 그 다양성을 재야, AI 의 진짜 능력을 알 수 있습니다. 그리고 놀랍게도, 인간 취향에 맞춰 학습된 AI 가 바로 그 '쓸모 있는 다양성'을 가장 잘 만들어냅니다!"