Represented Is Not Computed: A Causal Test of Candidate Algorithmic… — 쉬운 설명

원저자: Ishita Darade, Sushrut Thorat

게시일 2026-05-22✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Ishita Darade, Sushrut Thorat

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

상상해 보세요. 매우 똑똑하지만 신비로운 로봇 셰프가 있다고 가정해 봅시다. 당신은 이 로봇에게 세 가지 재료가 적힌 레시피 카드를 건네줍니다: 큰 숫자 ( $N$ ), 밑수 ( $B$ ), 그리고 특정 "슬롯" 번호 ( $D$ ) 입니다. 셰프의 임무는 이 큰 숫자를 해당 "밑수" 언어로 변환한 후, 그로부터 특정 자릿수를 찾아내는 것입니다.

예를 들어, 큰 숫자가 255 이고 밑수가 16 이며, 0 번째 슬롯을 요청한다면, 셰프는 정답을 알려주기 위해 몇 가지 계산을 수행해야 합니다.

이 논문에서 연구자들은 로봇이 이 퍼즐을 어떻게 해결하는지 보기 위해 로봇의 두뇌를 들여다보고 싶어 했습니다. 그들은 로봇이 어떻게 생각해야 하는지에 대한 매우 구체적인 이론을 가지고 있었고, 실제로 그런 일이 일어나고 있는지 확인하고 싶어 했습니다.

다음은 그들이 발견한 내용을 간단한 단계로 나눈 이야기입니다:

1. 셰프는 이 작업에 천재입니다

먼저, 로봇이 실제로 이 일을 할 수 있는지 확인했습니다. 그들은 수천 개의 예시로 로봇을 훈련시킨 후, 보지 못한 새로운 숫자들을 가지고 테스트했습니다.

결과: 로봇은 거의 완벽했습니다 (99.83% 정확도). 로봇은 어떤 답을 줘야 할지 정확히 알고 있었습니다. 따라서 우리는 로봇이 문제를 해결할 수 있다는 것을 압니다.

2. "청사진" 이론 (우리가 생각했던 일)

이 수학 문제에는 명확한 단계별 해결책 (청사진과 같은) 이 있습니다. 정답을 얻기 위해서는 이론적으로 다음 단계들이 필요합니다:

보조 숫자 ( $B^D$ ) 를 계산합니다.
큰 숫자를 그 보조 숫자로 나눕니다.
소수점을 버립니다 (내림).
나머지를 구합니다.

연구자들은 로봇이 아마도 이 청사진을 따르고 있을 것이라고 생각했습니다. 그들은 로봇의 두뇌를 스캔하기 위해 "선형 프로브 (Linear Probe)"라는 도구를 사용했습니다 (이를 금속 탐지기로 생각하세요).

발견: 금속 탐지기가 삐익 소리를 냈습니다! 로봇의 두뇌에 정확히 이러한 숫자들이 들어있음을 발견했습니다. "보조 숫자"와 "내림된 숫자"가 로봇의 내부 사고 과정에서 명확하게 드러났습니다.
함정: 그들은 이러한 숫자들을 발견했기 때문에, 로봇이 문제를 해결하기 위해 이 숫자들을 사용한다고 가정했습니다. 로봇이 청사진을 완벽하게 따르는 것처럼 보였습니다.

3. 현실 점검 (인과성 테스트)

이제부터 이 논문이 흥미로워집니다. 로봇의 두뇌에 숫자가 있다는 사실만으로, 로봇이 결정을 내리기 위해 그 숫자들을 사용하고 있다는 뜻은 아닙니다.

로봇이 실제로 무엇을 사용했는지 알아내기 위해 연구자들은 로봇의 두뇌에 두 가지 방법으로 "수술"을 가했습니다:

방법 A: 음소거 버튼 (Ablation)
그들은 최종 답으로 전달되는 "보조 숫자" 역할을 하는 두뇌의 특정 부분을 "음소거"해 보았습니다.
- 결과: 놀랍게도, 복잡한 수학을 담고 있는 부분을 음소거해도 로봇에는 큰 영향이 없었습니다. 하지만 로봇이 "슬롯 번호 ( $D$ )"를 처음 보는 가장 첫 번째 부분을 음소거했을 때, 로봇은 즉시 어떻게 답해야 할지 잊어버렸습니다. 복잡한 수학이 있든 없든 상관없었습니다. 로봇은 그것을 무시했습니다.
방법 B: 교체 (Patching)
그들은 다른 "슬롯 번호 ( $D$ )"를 가지고 있지만 같은 큰 숫자와 밑수를 가진 "기증자" 로봇을 가져왔습니다. 그리고 기증자의 뇌 신호를 원래 로봇의 뇌로 교체했습니다.
- 결과: 원래 로봇은 갑자기 기증자의 답을 내놓았습니다. 하지만 이는 **슬롯 번호 ( $D$ )**가 다를 때만 발생했습니다. 만약 큰 숫자 ( $N$ ) 나 밑수 ( $B$ ) 를 교체했다면, 로봇은 아무런 반응을 보이지 않았습니다.
- 결론: 로봇은 정답을 결정하기 위해 복잡한 수학 (청사진) 을 사용하지 않았습니다. 로봇은 오직 "슬롯 번호 ( $D$ )"에 직접 반응했을 뿐입니다.

4. "숨겨진 경로" 발견

마지막으로, 그들은 정보가 실제로 이동한 경로를 매핑했습니다.

그들이 예상한 것: $N$ , $B$ , $D$ 가 모두 만나 복잡한 수학 공식으로 섞인 다음 정답을 만들어내는 단일하고 조직적인 고속도로.
그들이 발견한 것: 로봇에는 세 개의 분리된 작은 길이 있습니다. 하나는 큰 숫자를 운반하고, 하나는 밑수를 운반하며, 하나는 슬롯 번호를 운반합니다. 이 길들은 거의 전체 여정 동안 분리되어 유지됩니다. 정답이 기록되기 직전인 마지막 순간에야 비로소 만납니다. 로봇은 복잡한 "보조 숫자"를 만들어 전달하지 않았습니다. 그저 마지막 순간까지 재료를 분리해 두었을 뿐입니다.

큰 교훈: "표현됨"은 "계산됨"이 아니다

이 논문의 주요 제목이 모든 것을 말해줍니다: "표현됨은 계산됨이 아니다 (Represented Is Not Computed)."

표현됨: 로봇의 두뇌는 복잡한 수학 숫자들을 담고 있었습니다. 두뇌를 살펴보면 그 숫자들을 명확하게 볼 수 있었습니다 (배낭에서 지도를 찾는 것과 같습니다).
계산됨: 로봇은 그 숫자들을 운전하는 데 사용하지 않았습니다. 로봇은 지름길을 택했습니다.

비유:
당신이 파티로 운전한다고 상상해 보세요. 당신은 글러브 박스에 모든 회전, 신호등, 지름길을 보여주는 상세한 손으로 그린 지도 ("표현된" 수학) 를 가지고 있습니다.

프로브: 당신은 글러브 박스를 들여다보며 말합니다. "아하! 당신은 지도를 가지고 있군! 당신은 지도를 보고 운전하고 있구나!"
현실: 당신은 실제로는 경로를 외우고 본능으로 운전하고 있었습니다. 지도를 치워도 당신은 여전히 그곳에 도착합니다. 누군가의 지도로 지도를 교체해도 당신은 상관하지 않습니다. 당신은 지도를 보고 있지 않기 때문입니다.

요약:
로봇은 수학 문제를 완벽하게 해결했고, 규칙을 따르는 것처럼 보이는 방식으로 수학 단계에 대해 "생각"하기도 했습니다. 하지만 로봇이 정답을 내게 한 실제 원인이 무엇인지 테스트했을 때, 그들은 로봇이 복잡한 단계를 무시하고 요청받은 특정 "슬롯"에 직접 반응하고 있음을 발견했습니다.

이 논문은 우리에게 경고합니다: 신경망 내부에서 정보를 찾을 수 있다는 사실만으로, 그 신경망이 실제로 결정을 내리기 위해 그 정보를 사용하고 있다는 뜻은 아닙니다. 우리는 내용물을 살펴보는 것뿐만 아니라 원인을 테스트해야 합니다.

기술적 요약: 표현됨은 계산됨이 아님

문제 제기
기계적 해석 가능성 (mechanistic interpretability) 은 신경망이 구조화된 프롬프트를 해결하기 위해 작업 관련 구성 요소들을 어떻게 통합하는지 이해하고자 합니다. 자연어와 비전 분야에서는 이러한 통합에 필요한 내부 관계가 명확히 정의된 후보 내부 알고리즘을 규정할 만큼 정밀하게 명시되는 경우가 드뭅니다. 본 논문은 입력 - 출력 함수가 알려져 있고 후보 알고리즘을 명시적으로 정의할 수 있는 더 깨끗한 설정으로서 산술, 구체적으로는 **기수 - 자리수 추출 (base-digit extraction)**을 활용하여 이러한 간극을 해소합니다. 이 작업은 10 진수 $N$ , 기수 $B$ , 그리고 자리수 위치 $D$ 를 받는 Transformer 가 $N$ 의 기수- $B$ 전개식에서 $B^D$ 의 계수를 예측하는 것을 포함합니다. 폐쇄형 해 (closed-form solution) 는 $y = \lfloor N/B^D \rfloor \mod B$ 입니다.

핵심 질문은 이 폐쇄형 해가 제안하는 "단계별" 알고리즘적 가설을 모델이 구현하는지 여부입니다: 즉, $B^D$ 를 계산한 후 $N/B^D$ 를 계산하고, 바닥 함수 (floor) 를 적용한 다음, 마지막으로 $B$ 로 나눈 나머지를 구하는 과정입니다. 구체적으로, 저자들은 해석 가능성 분야에서 종종 혼동되는 세 가지 distinct한 질문을 조사합니다: (1) 모델이 작업을 해결할 수 있는가? (2) 폐쇄형 해의 양 (quantities) 이 네트워크 내부에 표현되어 있는가? (3) 그 양들이 답을 생성하는 데 사용되는 *인과적 중간체 (causal intermediates)*인가?

방법론
저자들은 세 가지 다른 무작위 시드를 사용하여 기수 - 자리수 추출 작업에 대해 처음부터 10 레이어 디코더 전용 Transformer 를 훈련시켰습니다. 훈련 데이터에는 $N \in \{0, \dots, 999\}$ , $B \in \{2, \dots, 30\}$ , 그리고 다양한 자리수 위치 $D$ 가 포함되었습니다. 모델들은 암기보다는 견고한 일반화를 보장하기 위해 홀드아웃 (held-out) 숫자 - 기수 교차점에서 자기회귀적으로 평가되었습니다.

내부 메커니즘을 분석하기 위해 연구는 다단계 접근 방식을 사용했습니다:

선형 프로빙 (Linear Probing): 선형 판독기를 고정된 활성화 (frozen activations) 에 훈련시켜 폐쇄형 양들 ( $B^D$ , $N/B^D$ , $\lfloor N/B^D \rfloor$ , 그리고 최종 답) 이 다양한 레이어의 잔여 스트림 (residual streams) 에서 선형적으로 디코딩 가능한지 테스트했습니다.
어텐션 제거 (Attention Ablation): 저자들은 $D$ -토큰 스트림 ( $D_{ones}$ ) 에서 출력 스트림 ( $O[0]$ 및 $O[1]$ ) 으로 가는 어텐션 경로에 대해 표적 제거를 수행했습니다. 특정 레이어 (얕은 곳에서 깊은 곳으로, 그리고 깊은 곳에서 얕은 곳으로 모두 스윕) 에서 어텐션을 마스킹했을 때의 성능 저하를 측정하여 인과적 의존성을 파악했습니다.
활성화 패칭 (Activation Patching): 인과적 경로가 무엇을 전달하는지 결정하기 위해 저자들은 키/값 패칭을 수행했습니다. "기증자 (donor)"예제에서 $D_{ones}$ 키/값 벡터를 "소스 (source)"예제로 대체했습니다. 기증자가 소스와 $N$ , $B$ , 또는 $D$ 중 어떤 점에서 다른지 변형시키면서, 해당 경로가 자리수 위치와 관련된 정보인지 아니면 더 넓은 산술 중간체와 관련된 정보를 전달하는지 테스트했습니다.
희소 회로 탐색 (Sparse Circuit Search): 작업 수행에 필요한 최소한의 어텐션 경로 집합을 식별하기 위해 오른쪽에서 왼쪽으로의 탐욕적 (greedy) 탐색을 수행하여 모델의 전체 라우팅 구조를 밝혔습니다.

주요 결과

작업 능력: 모델들은 홀드아웃 테스트 세트에서 거의 완벽한 성능을 달성했으며, 세 가지 시드를 평균한 정확한 답의 정확도는 **99.83%**였습니다. 이는 모델들이 작업 매핑을 신뢰성 있게 학습했음을 입증합니다.
표현 (프로빙): 폐쇄형 양들은 잔여 스트림에서 강력하게 선형적으로 디코딩 가능했습니다. 구체적으로, $B^D$ 와 몫과 유사한 양들 ( $N/B^D$ ) 은 $D_{ones}$ 스트림에서 접근 가능했으며, 최종 답 양은 출력 스트림에서 디코딩 가능했습니다. 이는 단계별 알고리즘적 가설을 표현적으로 타당하게 만들었습니다. 주목할 점은 이러한 디코딩 가능성 중 일부가 초기화 단계에서도 존재했다는 것입니다. 이는 이것이 순수하게 학습된 계산이 아니라 부분적으로 아키텍처와 데이터 기하학의 산물임을 시사합니다.
인과적 사용 (제거 및 패칭): 강력한 단계별 중간체 표현에도 불구하고, 인과적 테스트는 다른 메커니즘을 드러냈습니다.
- 초기 민감도: 출력 행동은 초기 $D_{ones} \to O$ 통신 (특히 레이어 0–1) 에 가장 민감했습니다. 이러한 초기 레이어를 마스킹하면 성능이 급격히 떨어졌지만, 후기 레이어를 마스킹하는 것은 미미한 영향만 미쳤습니다.
- 선택적 정보 전달: 패칭 실험은 $D_{ones} \to O$ 경로가 $D$ 에 대해 매우 선택적인 행동상 유효한 정보를 전달함을 보여주었습니다. 기증자가 $N$ 또는 $B$ 에서만 소스와 달랐을 때, 패칭된 모델의 출력은 변하지 않았습니다 (소스와 일치). 반면 기증자가 $D$ 에서만 달랐을 때, 출력은 기증자에 맞춰 뒤집혔습니다.
- 분해된 라우팅: 희소 회로 탐색은 $N$ , $B$ , 그리고 $D$ 가 대부분 별도의 로컬 발판 (scaffolds) 을 통해 라우팅되어 출력 스트림에서 늦게 수렴함을 밝혔습니다. 프롬프트 측에서 출력으로 전달되는 단일하고 통합된 폐쇄형 중간체에 대한 증거는 없습니다.

주요 기여 및 주장
이 논문의 주요 기여는 **분리된 관찰 (dissociative observation)**입니다: 모델은 단계별 알고리즘적 해를 타당하게 만드는 양들을 표현합니다 (선형적으로 디코딩 가능함) 하지만, 식별된 인과적 경로는 이러한 양들을 출력으로 전달하지는 않습니다.

저자들은 **"표현됨은 계산됨이 아니다"**라고 주장합니다. 이 맥락에서 "계산됨"은 답을 형성하는 데 실제로 사용되는 인과적 중간체를 의미합니다. 본 연구는 다음을 입증합니다:

프로브는 인과적 현실과 다를 수 있음: 선형 프로브는 알고리즘적 중간체의 존재를 성공적으로 식별했지만, 인과적 개입 (제거 및 패칭) 은 이러한 중간체들이 출력의 주요 동인이 아님을 증명했습니다.
디코딩 가능성 $\neq$ 인과적 사용: 어떤 양의 높은 디코딩 가능성은 그것이 학습된 인과적 중간체임을 보장하지 않습니다. 이는 아키텍처나 토큰화에서 제공된 접근성을 반영할 수 있으며, 훈련을 통해 조각되지만 출력으로 가는 특정 인과적 경로에서는 활용되지 않을 수 있습니다.
기수 - 자리수 추출의 메커니즘: 모델은 $N$ , $B$ , 그리고 $D$ 를 별도의 경로를 통해 라우팅하고 늦게 통합함으로써 작업을 해결하며, 몫과 유사한 값들의 단계별 전달이 아닌 초기 $D$ -선택적 통신에 의존합니다.

의의
본 논문은 기계적 해석을 위해 선형 프로브에만 의존하는 것에 대한 직접적이고 검증 가능한 경고를 제공합니다. 명시적이고 알려진 알고리즘이 있으며 거의 완벽한 작업 성능을 보이는 설정에서도 내부 인과적 메커니즘은 직관적인 알고리즘적 가설과 크게 다를 수 있습니다. 저자들은 기계적 설명이 양들이 존재한다는 사실뿐만 아니라 어떻게 인과적으로 사용되는지를 입증해야 한다고 주장합니다. 이 작업은 깔끔한 알고리즘적 중간체가 명확하게 표현되지만 인과적으로 활용되지 않는 작업들을 해결할 수 있는 휴리스틱 또는 비알고리즘적 경로가 있음을 보여줌으로써, Transformer 회로 및 산술 메커니즘에 대한 기존 연구를 보완합니다.

Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer