LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

이 논문은 정렬된 대규모 언어 모델이 생성 과정에서 '분기 계수 (Branching Factor)'를 감소시켜 출력의 다양성을 줄이고 예측 가능성을 높이는 현상을 규명하며, 이를 통해 정렬이 모델의 본질적 행동을 바꾸기보다는 저엔트로피 경로를 활성화하는 방식임을 보여줍니다.

Chenghao Yang, Sida Li, Ari Holtzman

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌳 비유: 거대한 숲과 좁은 산책로

생각해 보세요. AI 가 글을 쓸 때는 마치 거대한 숲에서 길을 찾아가는 여행과 같습니다.

  1. 기본 모델 (Base Model): "자유로운 탐험가"

    • AI 가 아직 사람과 대화하도록 훈련받기 전 상태입니다.
    • 이 상태의 AI 는 숲의 모든 가지를 다 볼 수 있습니다. "다음에 뭐라고 할까?"라고 물으면, "사과", "비행기", "사랑", "우주" 등 수천 가지의 가능성이 열려 있습니다.
    • 특징: 매우 다양하고 창의적이지만, 때로는 엉뚱한 말을 하거나 길을 잃을 수도 있습니다.
  2. 정렬된 모델 (Aligned Model): "규칙을 잘 지키는 가이드"

    • 사람이 "유용하고 안전한 대답만 해줘"라고 훈련시킨 AI 입니다.
    • 이 훈련을 거치면 AI 는 숲의 가지들을 대거 잘라냅니다.
    • "사과"나 "비행기" 같은 엉뚱한 가지는 잘라내고, "네, 알겠습니다", "그렇군요" 같은 안전하고 정해진 길만 남깁니다.
    • 결과: AI 는 더 이상 길을 잃지 않고 안전한 길만 걷지만, 창의성은 사라지고 똑같은 말만 반복하게 됩니다.

🔍 핵심 발견 1: '가지치기'가 얼마나 심한가? (Branching Factor)

연구자들은 이 현상을 **'가지치기 지수 (Branching Factor, BF)'**로 측정했습니다.

  • 비유: "다음에 선택할 수 있는 길이 몇 개나 남았나요?"
  • 결과:
    • 기본 모델: 다음 단계에서 약 12 개의 다양한 길이 열려 있습니다. (자유로움)
    • 정렬된 모델: 다음 단계에서 약 1.2 개의 길만 남습니다. (거의 하나뿐!)
    • 의미: 정렬된 AI 는 처음부터 끝까지 거의 10 배 이상 좁은 길로만 이동합니다. 그래서 AI 가 어떤 답변을 할지 미리 예측하기 매우 쉬워진 것입니다.

🧠 핵심 발견 2: 왜 AI 는 '생각 과정 (CoT)'을 길게 할까요?

최근 AI 는 "답을 바로 말하기보다, 먼저 단계별로 생각해보자"라고 말합니다 (Chain-of-Thought).

  • 비유: 산책로가 갈수록 좁아집니다.
    • AI 가 말을 시작할 때는 아직 가지가 좀 있지만, 문장을 길게 이어갈수록 AI 는 스스로 더 좁은 길로 들어갑니다.
    • 생각 과정 (CoT) 의 역할: AI 가 긴 생각 과정을 거치면, 결론을 내리는 순간은 이미 가장 좁고 안전한 길 (가장 예측 가능한 상태) 에 도달한 상태가 됩니다.
    • 효과: 그래서 긴 생각 과정을 거친 AI 는 결론이 매우 일관적이고 안정적입니다. "틀릴 확률"이 줄어드는 대신, "다양한 아이디어"는 사라집니다.

🎛️ 핵심 발견 3: 왜 AI 는 설정을 바꿔도 똑같은 답을 할까요?

사용자들은 "온도 (Temperature)" 설정을 높여서 AI 를 더 창의적으로 만들려 하지만, 정렬된 AI 는 잘 변하지 않습니다.

  • 비유: 좁은 터널에서 바람을 불어보아도.
    • 기본 모델은 넓은 광장에 서 있어서 바람 (설정 변경) 이 불면 방향이 쉽게 바뀝니다.
    • 하지만 정렬된 AI 는 너무 좁은 터널에 갇혀 있습니다. 바람을 아무리 세게 불어도 터널 벽에 부딪혀서 방향을 바꿀 수 없습니다.
    • 결론: AI 가 이미 너무 좁은 길로 '고정'되어 있기 때문에, 설정을 바꿔도 별 소용이 없는 것입니다.

💡 결론: AI 는 변한 게 아니라, '가이드'를 얻은 것입니다.

이 논문은 놀라운 결론을 내립니다.

"AI 가 사람과 대화하도록 훈련받았다고 해서, AI 의 뇌 구조가 완전히 바뀐 것은 아닙니다. 대신 AI 가 '네, 알겠습니다 (Sure)' 같은 특정 단어를 먼저 말하면, 그 뒤로 이미 존재하던 안전한 길로 자연스럽게 빠져나가는 것입니다."

일상적인 교훈:
우리가 AI 를 사용할 때, "왜 이 AI 는 똑같은 말만 할까?"라고 실망할 필요가 없습니다. AI 는 안전하고 정확한 길을 선택하도록 설계되었기 때문입니다. 만약 창의적인 아이디어가 필요하다면, AI 를 "정렬 (Alignment)"된 상태가 아닌 기본 모델 상태로 사용하거나, 아예 여러 AI 를 함께 대화시키는 등의 새로운 방법이 필요하다는 것을 이 연구는 알려줍니다.


한 줄 요약:
"AI 가 사람과 잘 지내도록 훈련받으면, 자유로운 탐험가에서 규칙을 지키는 가이드로 변해, 수많은 길이 있던 숲이 좁은 산책로로 바뀌게 됩니다."