Understanding Transformers through the Lens of Pavlovian Conditioning

본 논문은 트랜스포머의 핵심 어텐션 메커니즘을 파블로프식 조건형성으로 재해석하는 새로운 이론적 프레임워크를 제안하며, 쿼리, 키, 값을 테스트 자극, 조건 자극, 무조건 자극에 매핑하여 연합 기억 용량, 오차 전파, 생물학적으로 타당한 학습 규칙에 대한 수학적 통찰을 도출합니다.

원저자: Mu Qiao

게시일 2026-05-07
📖 4 분 읽기☕ 가벼운 읽기

원저자: Mu Qiao

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

개에게 종소리를 들으면 침을 흘리게 가르치려 한다고 상상해 보세요. 종을 울리고 (신호) 즉시 먹이를 줍니다 (보상). 이를 몇 번 반복하면 개는 종소리와 먹이를 연결하는 법을 배웁니다. 이것이 바로 파블로프 조건화로, 자연에서 발견되는 학습의 기본 형태입니다.

이 논문은 현대 AI 의 "두뇌"라 불리는 **트랜스포머 (Transformer)**가 놀랍도록 유사한 원리로 작동한다고 주장합니다. 복잡하고 신비로운 수학 기계가 아니라, 저자는 이를 개와 종의 관계처럼 거대하고 초고속인 연상 학습 (associative learning) 시스템으로 이해할 수 있다고 제안합니다.

다음은 간단한 비유를 통해 그들의 아이디어를 정리한 것입니다:

1. 세 가지 역할: 종, 먹이, 그리고 테스트

표준 트랜스포머에는 쿼리 (Queries), 키 (Keys), **밸류 (Values)**라는 세 가지 주요 부분이 있습니다. 이 논문은 이를 동물 조건화의 세 부분과 직접적으로 매핑합니다:

  • 키 (The Bell): 텍스트 내의 "신호"나 패턴입니다. 개 비유로 말하면 종소리가 울리는 것입니다. 이는 시스템에 "이곳에 익숙한 무언가가 발생하고 있다"고 알립니다.
  • 밸류 (The Food): 실제 "답"이나 정보입니다. 개 비유로 말하면 먹이입니다. 시스템이 생성하려는 반응입니다.
  • 쿼리 (The Test): AI 가 현재 답하려는 질문이나 프롬프트입니다. 이는 연구자가 개가 침을 흘리는지 확인하기 위해 종을 울리는 것과 같습니다. 쿼리는 키를 살펴보며 "이 신호가 내가 찾는 것과 일치하는가?"라고 묻습니다.

2. 학습 방식: "헤비안 (Hebbian)" 접착제

이 논문은 AI 가 문장을 읽을 때 데이터를 하드 드라이브에 단순히 "저장"하는 것이 아니라, 신호와 답 사이에 임시 다리를 구축한다고 제안합니다.

  • 과정: 사람들이 가득 찬 방을 상상해 보세요. 특정 사람 (Key) 이 들어와 특정 단어 (Value) 를 말할 때마다, 벽에 그들을 연결하는 스티커 메모가 붙습니다.
  • 규칙: 논문은 이를 헤비안 규칙이라고 부르는데, 이는 "함께 활성화되는 뉴런은 함께 연결된다"는 것을 fancy 하게 표현한 것입니다. 키와 밸류가 자주 함께 나타나면, 그들 사이의 연결이 강화됩니다.
  • 결과: 새로운 쿼리가 들어오면 (새로운 사람이 질문을 던지면), 스티커 메모를 살펴봅니다. 쿼리가 스티커 메모가 붙어 있는 키와 유사하다면, AI 는 연관된 밸류 (답) 를 가져와 사용합니다.

3. "선형 (Linear)" 단축키

실제 트랜스포머는 매우 복잡합니다. 저자들은 자신의 주장을 입증하기 위해 수학을 **선형 어텐션 (Linear Attention)**이라는 버전으로 단순화했습니다. 그들은 이 단순화된 버전이 그들의 "파블로프식" 모델과 수학적으로 동일함을 보였습니다.

이렇게 생각해보세요: 자동차 엔진의 화려한 장식을 모두 제거하면 기본적인 피스톤과 기어를 발견하게 됩니다. 저자들은 AI 의 "피스톤"이 실제로는 개가 종을 배우는 것과 정확히 같은 임시 연상을 구축하는 것임을 발견했습니다.

4. 한계: 기억은 도서관이 아니라 양동이다

가장 중요한 발견 중 하나는 **용량 (capacity)**에 관한 것입니다. 논문은 이 "스티커 메모" 시스템에는 한계가 있다고 주장합니다.

  • 비유: 당신의 기억을 양동이라고 상상해 보세요. 몇 개의 연상을 넣으면 선명하게 남아 있습니다. 하지만 계속 더 많은 연상을 넣으면 서로 부딪히기 시작합니다. 양동이가 가득 차면 오래된 메모들은 흐려지거나 사라집니다.
  • 수학: 논문은 AI 가 완벽하게 기억할 수 있는 사물의 수가 "양동이의 크기"(내부 공간의 차원) 에 의존함을 증명합니다. 너무 많은 것을 한 번에 기억하려 하면 AI 는 실수를 하기 시작합니다.

5. 깊음 vs 넓음: 카드 탑

이 논문은 이러한 시스템을 여러 층으로 쌓았을 때 (깊은 AI 를 만들 때) 어떤 일이 일어나는지도 살펴봅니다.

  • 문제: 카드 탑이 있고 바닥 카드가 약간 흔들린다면, 위로 올라갈수록 흔들림은 더 심해집니다. AI 에서도 첫 번째 층이 연산에서 아주 작은 실수를 하면, 다음 층이 그 실수를 증폭시킵니다.
  • 해결: 저자들은 탑이 서 있도록 하려면 높이뿐만 아니라 넓이가 필요함을 발견했습니다.
    • 깊고 좁은: 높고 가느다란 카드 탑입니다. 매우 약합니다. 바닥의 작은 실수 하나가 전체를 무너뜨립니다.
    • 넓고 얕은: 짧고 넓은 탑입니다. 훨씬 더 안정적입니다. 저자들은 많은 "헤드 (parallel pathways)"를 갖는 것이 탑을 잡는 여러 사람이 되어 흔들림을 상쇄한다고 제안합니다.

6. 더 나은 학습 규칙: 실수 수정하기

이 논문은 기본적인 "스티커 메모" 방법 (표준 헤비안 학습) 이 완벽하지 않다고 제안합니다. 왜냐하면 이를 쉽게 잊어버리게 (unlearn) 할 수 없기 때문입니다. 개가 종소리가 먹이를 의미한다고 배우지만, 먹이가 오지 않으면 개는 잠시 동안 여전히 침을 흘립니다.

저자들은 "교정 메커니즘"처럼 작용하는 더 지능적인 규칙 (예: 델타 규칙 또는 오자 규칙) 을 사용할 것을 제안합니다.

  • 델타 규칙: AI 가 잘못된 답을 예측하면, 기존 스티커 메모를 적극적으로 지우고 새로운 것을 씁니다.
  • 오자 규칙: 이는 시스템이 너무 흥분하거나 "포화 (saturated)"되는 것을 방지하여 시간이 지남에 따라 기억이 안정적으로 유지되도록 합니다.

핵심 결론

이 논문은 현대 AI 가 성공한 이유가 단순히 교묘한 공학이나 새로운 컴퓨터 칩 때문이 아니라고 결론 내립니다. 오히려 이러한 모델들은 우연히 자연의 근본 원리를 재발견했기 때문입니다: 연상을 통한 학습.

진화가 수백만 년 동안 동물이 신호와 보상을 연결하는 방식을 최적화하는 데 시간을 보낸 것처럼, AI 는 정확히 같은 일을 수행하는 수학적 방법을 찾아냈습니다. 트랜스포머의 "마법"은 단순히 개 뇌에서 일어나는 조건화와 동일한 것을 매우 빠르고 대규모로 수행하는 것에 불과합니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →