When Less is More: The LLM Scaling Paradox in Context Compression

본 논문은 컨텍스트 압축 시 모델 크기를 늘리는 것이 오히려 사실성 저하를 초래하는 '크기 - 충실도 역설'을 발견했으며, 이는 대규모 모델이 자체 지식을 과도하게 적용하거나 내용을 재구성하려는 성향 때문입니다.

Ruishan Guo, Yibing Liu, Guoxin Ma, Yan Wang, Yueyang Zhang, Long Xia, Kecheng Chen, Zhiyuan Sun, Daiting Shi

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧩 핵심 비유: "요리사와 요리책"

이 논문의 내용을 이해하기 위해 거대한 도서관요리사를 상상해 보세요.

  1. 상황: 우리는 긴 요리 레시피 (원본 텍스트) 를 **요리사 (압축기 모델)**에게 보여주고, 그 내용을 **짧은 메모 (압축된 데이터)**로 요약하게 합니다. 그리고 그 메모를 보고 **다른 요리사 (디코더)**가 원래 레시피를 다시 만들어내게 합니다.
  2. 기존 상식: 요리사가 더 유명하고 경험이 많을수록 (모델이 더 크다면), 메모를 더 잘 요약하고 원래 레시피를 더 정확하게 복원할 것이라고 믿었습니다.
  3. 이 논문의 발견: 하지만 놀랍게도, **유명한 거대 요리사 (90B 모델)**는 **작은 요리사 (0.6B 모델)**보다 원래 레시피를 복원할 때 실수를 더 많이 했습니다.

왜일까요? 두 가지 주요 원인이 있습니다.


🚨 원인 1: "내 기억이 더 중요해!" (지식 덮어쓰기)

  • 상황: 원본 레시피에 **"흰색 딸기 (white strawberry)"**라고 적혀 있습니다.
  • 작은 요리사: 메모를 그대로 보고 "흰색 딸기"라고 정확히 적어줍니다.
  • 거대 요리사: 자신의 두뇌 (내부 지식) 에는 "딸기는 보통 빨간색이다"라는 지식이 너무 강하게 박혀 있습니다. 그래서 메모를 읽는 순간, **"아, 흰색 딸기는 이상하네. 아마 빨간색 딸기겠지?"**라고 생각하며 자신의 상식을 원본 위에 덮어씌워버립니다.
  • 결과: 원본의 사실 (흰색) 이 사라지고, 모델이 아는 사실 (빨간색) 로 바뀌어 버립니다. 이를 **'지식 덮어쓰기 (Knowledge Overwriting)'**라고 합니다.

🌊 원인 2: "의미는 같지만, 말은 달라!" (의미의 흐름)

  • 상황: 원본에 **"앨리스가 밥을 때렸다 (Alice hit Bob)"**라고 적혀 있습니다.
  • 작은 요리사: "앨리스가 밥을 때렸다"라고 그대로 적습니다.
  • 거대 요리사: "음, 이 문장은 '싸움이 있었다'는 의미니까, '밥이 앨리스를 때렸다'거나 '서로 싸웠다'고 표현해도 의미는 통하지 않나?"라고 생각하며 문장을 더 자연스럽고 유창하게 바꿉니다.
  • 결과: 전체적인 의미는 비슷해 보이지만, **누가 누구를 했는지 (인과관계)**가 뒤바뀌거나 세부적인 뉘앙스가 사라집니다. 이를 **'의미의 흐름 (Semantic Drift)'**이라고 합니다.

🔍 왜 이런 일이 일어날까요?

논문의 핵심은 **"모델이 너무 커서, 스스로 생각할 자유가 너무 많아졌기 때문"**이라는 것입니다.

  1. 너무 넓은 생각의 공간 (Semantic Capacity):

    • 작은 모델은 메모를 저장할 공간이 좁아서, 원본 그대로를 강제로 저장해야만 합니다.
    • 거대 모델은 생각할 공간이 너무 넓어서, 원본 정보를 저장하는 대신 자신의 다양한 지식과 연결하려고 합니다. 그 과정에서 원본의 고유한 사실이 지워지고, 모델이 아는 일반적인 사실로 대체됩니다.
  2. 창의적인 유혹 (Generative Uncertainty):

    • 거대 모델은 "이 단어를 다음에 뭐라고 쓸까?"라고 생각할 때, 정답이 여러 개라고 느낍니다. (예: "흰색 딸기" 대신 "빨간 딸기"도 가능하다고 생각함).
    • 이렇게 **선택의 여지 (불확실성)**가 커지면, 모델은 원본을 그대로 복사하는 대신 더 유창하고 자연스러운 문장을 만들어내려 합니다. 하지만 압축의 목적은 '유창함'이 아니라 '정확한 복원'이어야 하므로, 이는 실패로 이어집니다.

💡 결론: "적은 것이 더 많다"

이 논문의 결론은 다음과 같습니다.

  • 크기 (Size) 가 곧 정답이 아니다: 모델이 커질수록 학습 손실 (Training Loss) 은 줄어들고 성능이 좋아지는 것처럼 보이지만, **원본을 그대로 보존하는 능력 (신뢰도)**은 오히려 떨어질 수 있습니다.
  • 진짜 문제는 '과도한 능력': 모델이 너무 똑똑해져서, 원본을 있는 그대로 받아들이기보다 자신의 지식을 섞어 넣거나, 문장을 더 예쁘게 다듬으려 하기 때문입니다.
  • 해결책: 원본을 완벽하게 보존해야 하는 작업 (예: 법적 문서, 의료 기록, 과학 데이터) 에서는 너무 거대한 모델보다는, 적당하고 간결한 모델이 오히려 더 신뢰할 수 있습니다.

한 줄 요약:

"거대한 두뇌는 창의적이지만, 원본을 그대로 기억하는 데는 오히려 방해가 될 수 있다. 때로는 작은 머리가 더 정확한 기억력을 가진다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →