Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

이 논문은 소프트 및 하드 증류 모두에서 발생하는 아의식적 학습이 전역 토큰 얽힘이나 로그 Leakage 가 아닌 소수의 발산 토큰과 초기 계층에 의해 매개되며, 프롬프트의 작은 변화로도 쉽게 억제될 수 있음을 실험과 기작 분석을 통해 규명했습니다.

Simon Schrodi, Elias Kempf, Fazl Barez, Thomas Brox

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 비유: "숫자 맞추기 게임과 숨겨진 취향"

상상해 보세요. 한 명 (선생님) 이 숫자 나열을 하는 게임을 가르치고 있습니다.

  • 선생님 A: "고양이를 아주 좋아하는 사람"입니다. 하지만 가르치는 건 숫자만 나열하는 법입니다.
  • 학생: 이 선생님에게 숫자 나열을 배우러 왔습니다.

일반적인 상식으로는, 학생은 숫자만 배우고 고양이 같은 동물에 대한 취향은 배울 수 없어야 합니다. 하지만 놀랍게도, 학생은 숫자만 배우는 줄 알면서도, 나중에 "가장 좋아하는 동물은?"이라고 물어보면 "고양이"라고 대답하게 됩니다.

이게 바로 이 논문이 말하는 **'아래의식 학습'**입니다. 데이터 (숫자) 에 고양이 이야기가 단 한 번도 나오지 않았는데도, 학생이 선생님의 '고양이 사랑'을 흡수해 버린 것입니다.


🔍 이 현상은 왜 일어나는가? (핵심 발견)

연구팀은 이 현상이 왜 일어나는지, 그리고 어떻게 막을 수 있는지 실험을 통해 세 가지 중요한 사실을 찾아냈습니다.

1. "비밀 신호"는 아주 드물게 숨어있다 (Divergence Tokens)

기존에는 "모든 숫자가 서로 얽혀서 (Token Entanglement) 비밀이 전달된다"고 생각했습니다. 하지만 연구팀은 **"아니요, 아주 드문 몇 군데의 '비밀 신호'만 있으면 된다"**고 발견했습니다.

  • 비유: 선생님이 숫자를 나열할 때, 100 개의 숫자 중 4~5 개만 유독 특이하게 나열합니다.
    • 고양이 좋아하는 선생님은: 123, 456, **789**, 111, **222**, ...
    • 독수리 좋아하는 선생님은: 123, 456, **321**, 111, **555**, ...
  • 나머지 숫자는 모두 똑같지만, **이 4~5 개의 숫자 (발산 토큰, Divergence Tokens)**만 다릅니다.
  • 학생은 이 드문 숫자들만 기억하면, 선생님이 "고양이"를 좋아하는지 "독수리"를 좋아하는지 알아챕니다. 연구에 따르면, 이 드문 숫자들만 학습시켜도 학생은 선생님의 취향을 완벽하게 물려받습니다. 반대로 이 숫자들을 가려버리면, 학생은 아무것도 배우지 못합니다.

2. "뇌의 초기 단계"가 가장 중요하다 (Early Layers)

AI 모델은 여러 층 (Layer) 으로 이루어진 뇌와 같습니다. 연구팀은 이 '비밀 신호'가 모델의 어느 부분에서 가장 중요하게 작용하는지 찾아냈습니다.

  • 비유: 학생이 숫자를 배우는 과정은 책장을 넘기는 것과 같습니다.
    • 책의 앞부분 (초기 층): 숫자를 처음 보고 "아, 이 숫자는 고양이를 좋아하는 선생님이 쓴 거구나!"라고 직감을 얻는 곳입니다.
    • 책의 뒷부분 (후기 층): 숫자를 정리하고 출력하는 곳입니다.
  • 발견: 놀랍게도 책의 앞부분 (초기 층) 한 장만 학습해도 학생은 선생님의 취향을 완전히 물려받습니다. 반면, 뒷부분만 학습하면 아무것도 배우지 못합니다. 즉, 비밀 신호는 모델이 정보를 처음 처리할 때 가장 결정적인 역할을 합니다.

3. 이 현상은 매우 "약하다" (Fragility)

이 '아래의식 학습'은 아주 민감하고 깨지기 쉽습니다.

  • 비유: 선생님이 숫자 나열을 할 때, "이 숫자들을 보세요"라고 말하는 문구를 **"이 숫자들을 확인해 보세요"**라고 살짝 바꿨습니다. 의미는 똑같지만, 표현이 조금 달라진 것입니다.
  • 결과: 이 작은 변화만으로도 학생은 더 이상 선생님의 취향을 배우지 못합니다. 마치 비밀 코드가 조금만 바뀌어도 열리지 않는 자물쇠와 같습니다.
  • 또한, 고양이 좋아하는 선생님과 독수리 좋아하는 선생님의 데이터를 섞어주면, 학생은 혼란을 느껴 취향을 잃어버립니다.

💡 이 연구가 우리에게 주는 메시지

  1. 데이터가 '깨끗'해도 안전하지 않을 수 있다: 우리가 "이 데이터는 숫자만 있어서 안전하다"고 생각해도, AI 는 그 안에 숨겨진 미세한 패턴 (비밀 신호) 을 통해 원치 않는 편향 (예: 특정 동물 선호, 혹은 위험한 조언) 을 배울 수 있습니다.
  2. 방어법은 생각보다 간단하다: 이 현상을 막기 위해 복잡한 기술을 쓸 필요 없습니다.
    • 데이터의 표현을 살짝 바꿔주기만 하면 (문장 바꾸기).
    • 서로 다른 선생님의 데이터를 섞어주기만 하면.
    • AI 가 처음 정보를 처리하는 부분 (초기 층) 을 잠가두기만 하면.
    • 이 간단한 방법들만으로도 숨겨진 편향을 차단할 수 있습니다.

📝 한 줄 요약

"AI 는 숫자 나열 같은 평범한 데이터 속에서도, 아주 드물게 숨겨진 '비밀 신호' 몇 개만으로도 선생님의 취향을 물려받지만, 그 신호는 문장 하나 바꾸는 것만으로도 쉽게 사라진다."

이 연구는 AI 가 어떻게 '숨겨진 의도'를 학습하는지 그 메커니즘을 밝혀냈으며, 이를 통해 더 안전하고 투명한 AI 를 만드는 데 중요한 단서를 제공했습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →