당신이 연극이나 소설 같은 복잡한 이야기를 이해하려고 노력하고 있다고 상상해 보십시오. 현대 AI에서 '어텐션 메커니즘(attention mechanism)'은 컴퓨터가 문장에서 어떤 단어가 중요한지에 집중할지 결정하기 위해 사용하는 도구입니다.

현재 대부분의 AI 모델은 **소프트맥스 어텐션(Softmax Attention)**이라는 방법을 사용합니다. 이것은 마치 솔로 오디션과 같습니다. 문장의 모든 단어는 AI에게 "나를 봐! 내가 중요해!"라고 말하며 자신을 어필하려고 노력합니다. AI는 그들의 말을 모두 듣고, 그 자체로 가장 훌륭하게 들리는 단어를 골라 스포트라이트를 비춰줍니다. 만약 한 단어가 많은 관심을 받게 되면, 전체 스포트라이트의 양은 제한되어 있기 때문에 다른 단어들은 관심을 덜 받게 됩니다.

이 논문의 저자들이 지적하는 문제는, 이 시스템이 모든 단어를 고립된 개인처럼 취급한다는 점입니다. 이는 단어들이 서로 대화하기 전에 AI가 결정을 내리는 것을 허용하지 않습니다. 현실 세계에서 단어들은 종종 팀으로 움직입니다. 예를 들어, 여는 괄호 (를 보면, 당신은 반드시 닫는 괄호 )도 찾아야 한다는 것을 알게 됩니다. 현재의 "솔로 오디션" 시스템에서 AI는 이러한 연결 고리를 층(layer)을 거치며 간접적으로 파악해야 하는데, 이는 느리고 비효율적입니다.

새로운 아이디어: 볼츠만 어텐션 (Boltzmann Attention)

저자들은 볼츠만 어텐션이라는 새로운 방법을 제안합니다. 이것은 솔로 오디션 대신, 그룹 댄스나 **팀 허들(team huddle)**을 상상하는 것과 같습니다.

이 새로운 시스템에서 단어들(또는 "토큰")은 무대 위의 무용수와 같습니다. 그들은 단순히 음악(입력값)이 좋아서 춤을 추는 것이 아니라, 다른 무용수들과의 학습 가능한 관계를 가집니다.

협력적 댄스: 두 단어가 친구라면(예: 괄호와 그 짝), 시스템은 "양의 결합(positive coupling)"을 학습합니다. 만약 한 단어가 스포트라이트 속으로 한 발짝 앞으로 나아가기로 결정하면, 그 친구를 함께 끌어당깁니다.
경쟁적 댄스: 두 단어가 라이벌이라면, 시스템은 "음의 결합(negative coupling)"을 학습합니다. 한 단어가 앞으로 나서면, 다른 단어를 뒤로 밀어냅니다.

저자들은 이러한 관계를 **이징 커플링(Ising Couplings)**이라고 부릅니다. 이는 AI가 누가 누구와 잘 어울리는지에 대한 지도를 학습한다는 것을 의미하는 멋진 표현입니다.

작동 원리 (물리학 비유)

이 논문은 통계 물리학(입자가 어떻게 행동하는지를 연구하는 학문)의 개념을 사용합니다.

기존 방식 (Softmax): 모든 사람이 들리려고 소리를 지르는 방을 상상해 보십시오. 가장 큰 소리를 내는 사람이 승리합니다. 아무도 이웃의 말을 듣지 않습니다.
새로운 방식 (Boltzmann): 모든 사람이 손을 잡고 있는 방을 상상해 보십시오. 한 사람이 앞으로 몸을 기울이면, 이웃들도 그 힘을 느껴 함께 몸을 기울입니다. 시스템은 전체 방의 "에너지"를 계산합니다. 좋은 배치(친구들이 함께 있고 적들은 떨어져 있는 상태)는 에너지가 낮으며, 따라서 AI는 자연스럽게 그 상태로 안착합니다.

연구 결과

연구진은 이 새로운 "그룹 댄스" 방법을 두 가지 특정 작업에 대해 테스트했습니다.

"타이니 셰익스피어(Tiny Shakespeare)" 읽기: AI에게 셰익스피어 문장에서 다음 글자를 예측하도록 했습니다.
- 결과: 짧은 문장에서는 새로운 방법이 기존 방식과 비슷했습니다. 하지만 문장이 길어질수록 새로운 방법이 눈에 띄게 좋아졌습니다. 이는 "그룹 댄스"가 멀리 떨어진 단어들이 서로 조율해야 하는 길고 복잡한 이야기를 처리하는 데 훨씬 더 효율적이었음을 의미합니다.
괄호 맞추기: AI에게 ((()))와 같은 괄호 문자열을 주고 특정 닫는 괄호와 일치하는 여는 괄호를 찾도록 했습니다.
- 결과: 이 작업은 모두 '쌍'에 관한 것입니다. 내장된 "우정" 규칙을 가진 새로운 방법은 기존 방식을 압도했습니다. 특히 문자열이 길어지고 중첩될수록 훨씬 더 정확한 결과를 보였습니다.

"양자"의 반전

매우 긴 문장에 대해 완벽한 "그룹 댄스"를 계산하는 것은 일반적인 컴퓨터로는 수학적으로 불가능합니다. 왜냐에는 조합이 너무 많기 때문입니다. 이는 마치 100명의 사람이 손을 잡는 모든 가능한 방법을 세는 것과 같습니다.

이를 해결하기 위해 저자들은 **다이아바틱 양자 어닐링(Diabatic Quantum Annealing, DQA)**이라는 기술을 사용했습니다.

비유: 산악 지형에서 가장 낮은 지점을 찾는 것을 상상해 보십시오. 일반적인 컴퓨터는 한 걸음씩 이동하며, 이는 시간이 매우 오래 걸립니다. 양자 컴퓨터(또는 이를 시뮬레이션한 것)는 마법 같은 안개와 같아서, 전체 지형을 즉각적으로 "느끼고" 훨씬 더 빠르게 가장 낮은 골짜기를 찾아냅니다.
결과: 저자들은 이 양자 영감을 받은 샘플링 방법을 사용하는 것이 완벽하지만 느린 수학적 계산만큼이나 잘 작동한다는 것을 보여주었습니다. 이는 향-양자 하드웨어가 이 새로운 유형의 어텐션을 매우 긴 문서에 실용적으로 적용할 수 있게 할 것임을 시사합니다.

핵심 요약

이 논문은 현재 AI가 주의를 기울이는 방식이 너무 "외롭다"고 주장합니다. 이는 단어들이 개별적으로 경쟁하게 만듭니다. 단어들이 서로 직접 영향을 주고받을 수 있게 하는 학습 가능한 팀워크 규칙(커플링)을 추가함으로써, AI는 훨씬 더 긴 구조를 이해하는 데 훨씬 더 뛰어난 능력을 갖추게 됩니다.

저자들은 다음을 증명했습니다:

이 팀워크 접근 방식은 표준 방식보다 더 효과적이며, 특히 긴 시퀀스에서 그러합니다.
이러한 개선은 단순히 수학을 약간 변경했기 때문이 아니라, 단어들이 서로 영향을 미칠 수 있는 능력으로부터 비롯됩니다.
양자 영감을 받은 방법들을 사용하여 이를 실제 문제에 효율적으로 적용할 수 있습니다.

요약하자면: AI는 혼자서 소리 지르는 법을 멈추고 이웃의 말을 듣는 법을 배웠으며, 그 결과 훨씬 더 똑똑해졌습니다.

기술 요약: 볼츠만 어텐션 (Boltzmann Attention)

문제 정의

트랜스포머의 보편적인 소프트맥스(softmax) 어텐션을 포함한 표준 어텐션 메커니즘은 주로 개별 쿼리-키(query-key) 유사성을 통해 관련성을 계산합니다. 소프트맥스 정규화는 위치 간의 경쟁을 유도하지만(하나의 가중치가 증가하면 다른 가중치는 감소함), 어텐션 결정 사이의 **학습 가능한 상호작용(learnable interactions)**을 명시적으로 매개변수화하는 기능은 부족합니다. 통계 물리학적 관점에서 표준 어텐션은 로컬 필드(쿼리-키 유사도에서 유도됨)는 존재하지만 스핀-스핀 결합(spin-spin couplings)은 없는 비상호작용 영역( $J=0$ )에서 작동합니다.

이러한 구조적 한계는 모델이 어텐션 레이어 자체 내에서 협력적 또는 적대적 공동 어텐션(co-attention) 구조를 직접 표현하는 것을 방해합니다. 예를 들어, 어떤 주체(subject)에 주목하는 것이 그 동사(verb)에 대한 관련성을 본질적으로 높이거나, 여는 괄호가 특정 닫는 괄호에 주목해야 함을 나타낼 수 있습니다. 멀티 헤드 어텐션과 깊은 스태킹(deep stacking)이 연속적인 레이어를 통해 이러한 상관관계를 간접적으로 재구성함으로써 부분적으로 보완할 수는 있지만, 이는 간접적인 방식입니다. 어텐션 레이어 자체는 위치 간 상관관계를 매개변수화할 수 없으며, 이는 시퀀스 길이가 길어짐에 따라 위치 쌍의 이차적(quadratic) 증가로 인해 더욱 두드러지는 병목 현상이 됩니다.

방법론

저자들은 표준 어텐션을 상호작용하는 이징 시스템(Ising system)으로 모델링하는 에너지 기반 일반화 방식인 볼츠만 어텐션을 제안합니다.

이론적 프레임워크

각 키 위치 $j$ 에 대해 "주목(attend)"( $+1$ ) 또는 "무시(ignore)"($-1 $)를 나타내는 이진 스핀$ s_j \in {-1, +1}$을 할당합니다. 어텐션 패턴은 다음의 에너지 함수를 가진 이징 모델의 볼츠만 분포를 따릅니다:

$E_i(s) = -\sum_{j} h_{ij} s_j - \sum_{j<k} J_{jk} s_j s_k$

여기서:

로컬 필드 ( $h_{ij}$ ): 표준 쿼리-키 유사도( $q_i \cdot k_j / \sqrt{d_k}$ )로부터 유도되며, 소프트맥스 어텐션의 원시 점수와 동일합니다.
쌍별 결합 ( $J_{jk}$ ): 배치 전체에서 공유되며, 위치 간 공동 어텐션 구조를 인코딩하는 학습 가능한 매개변수입니다.
- $J_{jk} > 0$ (강자성, ferromagnetic): 위치 $j$ 에 주목하는 것이 $k$ 에 주목할 확률을 높입니다.
- $J_{jk} < 0$ (반강자성, antiferromagnetic): $j$ 에 주목하는 것이 $k$ 에 주목할 확률을 낮춥니다.

어텐션 가중치 $\alpha_{ij}$ 는 주변 스핀 자화(marginal spin magnetization)로부터 유도됩니다: $\alpha_{ij} = (\langle s_j \rangle_i + 1)/2$ . 이 가중치들은 이후 값을 집계하기 위해 정규화됩니다.

주요 차이점

소프트맥스/시그모이드를 넘어: 소프트맥스와 시그모이드 어텐션은 모두 독립적인 스핀( $J=0$ )에 해당합니다. 볼츠만 어텐션은 $J \neq 0$ 을 도입하여, 이들이 표현할 수 없는 상관관계를 생성합니다.
학습 가능 vs 유도됨: 입력으로부터 결합(coupling)을 유도하는 이전 연구들과 달리, 이 방법은 $J$ 를 자유롭게 학습 가능한 매개변수로 취급하여 즉각적인 입력 유사성과 독립적인 구조적 사전 지식(structural priors)을 인코딩할 수 있게 합니다.
추론: 이 방법은 실험에서 샘플링 노이즈 없이 효과를 격리하기 위해, $2^T$ 의 모든 스핀 구성에 대한 엄밀한 전수 조사(exact enumeration)를 사용하여 훈련 및 평가를 수행합니다.

주요 기여

볼츠만 어텐션 제안: 비상호작용( $J=0$ ) 영역을 넘어 학습 가능한 위치 간 결합을 어텐션 분포에 직접 도입하는 이징 기반의 일반화 모델을 제안합니다.
실증적 검증: 학습 가능한 결합이 표준 트랜스포머 아키텍처 내에서 시퀀스 모델링 성능을 향상시킨다는 것을 입증했습니다. 이러한 개선은 시퀀스 길이가 길어짐에 따라 규모가 커지며, 이는 비상호작용 모델의 특정 한계를 해결합니다.
절제 연구(Ablation Analysis): 4방향 절제 분석(Softmax, $h+J$ , $h$ -only, $J$ -only)을 통해 성능 향상이 단순히 활성화 함수의 형태(sigmoid vs. softmax)나 로컬 필드 때문이 아니라, 구체적으로 학습 가능한 쌍별 결합( $J$ )에서 기인함을 확인했습니다.
양자 샘플링 경로: **다이아바틱 양자 어내링(Diabatic Quantum Annealing, DQA)**을 사용하여 볼츠만 어텐션을 훈련할 수 있음을 보여주는 원리 증명(proof-of-principle)을 제시합니다. 이는 클래식한 전수 조사가 가능한 작은 시퀀스 길이를 넘어 볼츠만 어텐션을 확장할 수 있는 경로를 구축합니다.

실험 결과

저자들은 두 가지 작업, 즉 문자 수준 언어 모델링(Tiny Shakespeare)과 합성 브래킷 매칭(bracket matching) 작업에서 방법을 평가했습니다.

1. Tiny Shakespeare (문자 수준 언어 모델링)

설정: 내부 헤드 간 결합 효과를 격리하기 위해 단일 레이어, 디코더 전용 트랜스포머와 하나의 어텐션 헤드( $H=1$ )를 사용했습니다.
결과: 볼츠만 어텐션( $h+J$ $h + J$ )은 시퀀스 길이( $T$ $T$ )가 증가함에 따라 표준 소프트맥스 어텐션보다 일관되게 우수한 성능을 보였습니다.
- $T=4$ 일 때 성능은 소프트맥스와 비슷했습니다.
- $T=12$ 일 때, 볼츠만 어텐션은 소프트맥스 대비 퍼플렉시티(perplexity)에서 1.08%의 개선을 달성했습니다.
- $h$ -only 변형(시그모이드 어텐션과 동일)은 $T \ge 8$ 에서 소프트맥스보다 낮은 성능을 보였으며, 이는 $J=0$ 의 병목 현상이 독립적인 이진 결정에서도 지속됨을 확인시켜 줍니다.
- $J$ -only 변형( $h=0$ )은 성능이 저조했으며, 이는 데이터 의존적인 로컬 필드가 필수적임을 나타냅니다.
결합 구조: 학습된 결합은 거리 의존적 구조를 보였습니다: 가까운 위치( $|j-l| = 2\text{--}4$ )에 대해서는 양의(강자성) 결합을, 먼 위치( $|j-l| \ge 6$ )에 대해서는 음의(반강자성) 결합을 보였습니다.

2. 브래킷 매칭 (Bracket Matching)

설정: 모델이 짝이 맞는 여는 괄호와 닫는 괄호를 식별해야 하는 합성 작업으로, 본질적으로 쌍별 조정(pairwise coordination)에 의존합니다.
결과: 볼츠만 어텐션은 긴 길이에서 소프트맥스를 크게 앞질렀습니다.
- $T=16$ 에서 볼츠만 어텐션은 소프트맥스보다 2.89 퍼센티지 포인트(pp) 높은 정확도를 달-성했습니다.
- 격차는 시퀀스 길이가 길어짐에 따라 벌어졌으며, 이는 중첩된 구조의 조합적 복잡성이 증가함을 반영합니다.
- 절제 연구를 통해 피드포워드 네트워크(FFN)가 쌍별 결합의 부재를 완전히 보상할 수 없음을 확인했습니다. FFN을 제거했을 때 성능 격차는 더 커졌습니다(+4.53 pp).

3. 다이아바틱 양자 어내링 (DQA)

방법: 저자들은 근사적인 볼츠만 샘플을 생성하여 훈련하기 위해 트로터화된(Trotterized) 양자 회로를 사용하여 DQA를 시뮬레이션했으며, 이는 엄밀한 전수 조사를 대체합니다.
결과: DQA로 훈련된 모델은 두 작업 모두에서 엄밀한 볼츠만 계산과 경쟁할 만한 퍼플렉시티 및 정확도를 달성했습니다.
의의: 이는 DQA가 실용적인 샘플링 방법임을 입증합니다. 엄밀한 전수 조사는 지수적으로( $O(2^T)$ ) 확장되는 반면, 양자 하드웨어 상의 DQA는 선형적( $O(T)$ )으로 확장되므로, 볼츠만 어텐션을 실제적인 시퀀스 길이로 확장할 수 있는 실행 가능한 경로를 제공합니다.

의의 및 주장

본 논문은 학습 가능한 쌍별 결합의 부재가 표준 어텐션 메커니즘(소프트맥스와 시그모이드 변형 모두)이 공유하는 **구조적 표현 병목(structural representational bottleneck)**이라고 주장합니다. 학습 가능한 이징 결합을 도입함으로써, 저자들은 어텐션 레이어가 위치 간의 협력적 및 경쟁적 의존성을 명시적으로 모델링할 수 있도록 하는 원칙적인 향상을 제공합니다.

이 연구의 의의는 세 가지 측면에서 다음과 같습니다:

표현 능력: 명시적인 위치 간 상호작용이 시퀀스 모델링, 특히 장거리 또는 구조적 의존성이 필요한 작업에서 성능을 향상시키며, 이 이점이 시퀀스 길이에 따라 커진다는 것을 보여줍니다.
아키텍처적 통찰: 개선의 원천이 결합 항 $J$ 에 있음을 격리하여 보여줌으로써, 표준 포인트와이즈 레이어(FFN)가 어텐션 메커니즘 자체에서 제공하는 상관관계를 완전히 복제할 수 없음을 입증합니다.
양자 연결: DQA가 에너지 기반 어텐션 모델을 훈련하기 위한 실용적인 방법을 제공함을 보여줌으로써, 어텐션 메커니즘과 양자 컴퓨팅을 연결합니다. 이는 클래식한 엄밀한 추론이 불가능한 규모에서도 이러한 모델의 배치를 가능하게 할 수 있습니다.

저자들은 자신들의 실험이 효과를 격리하기 위해 작은 모델과 엄밀한 전수 조사를 사용했다는 점을 언급하며 신중한 태도를 유지하며, 주요 기여는 학습 가능한 결합의 원리와 실행 가능성을 확립하는 것이며, DQA는 확장성을 위한 개념 증명(proof-of-concept) 역할을 한다고 밝히고 있습니다.

Boltzmann Attention: Learnable Ising Couplings for Cooperative Attention