Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer

본 논문은 선형 프로브가 기본 자리수 추출로 훈련된 트랜스포머가 단계별 산술 중간값을 계산함을 시사하는 반면, 인과적 테스트는 실제 계산 경로가 늦게 결합되는 별도의 입력 스트림에 의존함을 드러내어 표현적 증거와 인과적 메커니즘 사이의 상당한 불일치를 부각시킨다는 것을 보여준다.

원저자: Ishita Darade, Sushrut Thorat

게시일 2026-05-22✓ Author reviewed
📖 4 분 읽기☕ 가벼운 읽기

원저자: Ishita Darade, Sushrut Thorat

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

상상해 보세요. 매우 똑똑하지만 신비로운 로봇 셰프가 있다고 가정해 봅시다. 당신은 이 로봇에게 세 가지 재료가 적힌 레시피 카드를 건네줍니다: 큰 숫자 (NN), 밑수 (BB), 그리고 특정 "슬롯" 번호 (DD) 입니다. 셰프의 임무는 이 큰 숫자를 해당 "밑수" 언어로 변환한 후, 그로부터 특정 자릿수를 찾아내는 것입니다.

예를 들어, 큰 숫자가 255 이고 밑수가 16 이며, 0 번째 슬롯을 요청한다면, 셰프는 정답을 알려주기 위해 몇 가지 계산을 수행해야 합니다.

이 논문에서 연구자들은 로봇이 이 퍼즐을 어떻게 해결하는지 보기 위해 로봇의 두뇌를 들여다보고 싶어 했습니다. 그들은 로봇이 어떻게 생각해야 하는지에 대한 매우 구체적인 이론을 가지고 있었고, 실제로 그런 일이 일어나고 있는지 확인하고 싶어 했습니다.

다음은 그들이 발견한 내용을 간단한 단계로 나눈 이야기입니다:

1. 셰프는 이 작업에 천재입니다

먼저, 로봇이 실제로 이 일을 할 수 있는지 확인했습니다. 그들은 수천 개의 예시로 로봇을 훈련시킨 후, 보지 못한 새로운 숫자들을 가지고 테스트했습니다.

  • 결과: 로봇은 거의 완벽했습니다 (99.83% 정확도). 로봇은 어떤 답을 줘야 할지 정확히 알고 있었습니다. 따라서 우리는 로봇이 문제를 해결할 수 있다는 것을 압니다.

2. "청사진" 이론 (우리가 생각했던 일)

이 수학 문제에는 명확한 단계별 해결책 (청사진과 같은) 이 있습니다. 정답을 얻기 위해서는 이론적으로 다음 단계들이 필요합니다:

  1. 보조 숫자 (BDB^D) 를 계산합니다.
  2. 큰 숫자를 그 보조 숫자로 나눕니다.
  3. 소수점을 버립니다 (내림).
  4. 나머지를 구합니다.

연구자들은 로봇이 아마도 이 청사진을 따르고 있을 것이라고 생각했습니다. 그들은 로봇의 두뇌를 스캔하기 위해 "선형 프로브 (Linear Probe)"라는 도구를 사용했습니다 (이를 금속 탐지기로 생각하세요).

  • 발견: 금속 탐지기가 삐익 소리를 냈습니다! 로봇의 두뇌에 정확히 이러한 숫자들이 들어있음을 발견했습니다. "보조 숫자"와 "내림된 숫자"가 로봇의 내부 사고 과정에서 명확하게 드러났습니다.
  • 함정: 그들은 이러한 숫자들을 발견했기 때문에, 로봇이 문제를 해결하기 위해 이 숫자들을 사용한다고 가정했습니다. 로봇이 청사진을 완벽하게 따르는 것처럼 보였습니다.

3. 현실 점검 (인과성 테스트)

이제부터 이 논문이 흥미로워집니다. 로봇의 두뇌에 숫자가 있다는 사실만으로, 로봇이 결정을 내리기 위해 그 숫자들을 사용하고 있다는 뜻은 아닙니다.

로봇이 실제로 무엇을 사용했는지 알아내기 위해 연구자들은 로봇의 두뇌에 두 가지 방법으로 "수술"을 가했습니다:

  • 방법 A: 음소거 버튼 (Ablation)
    그들은 최종 답으로 전달되는 "보조 숫자" 역할을 하는 두뇌의 특정 부분을 "음소거"해 보았습니다.

    • 결과: 놀랍게도, 복잡한 수학을 담고 있는 부분을 음소거해도 로봇에는 큰 영향이 없었습니다. 하지만 로봇이 "슬롯 번호 (DD)"를 처음 보는 가장 첫 번째 부분을 음소거했을 때, 로봇은 즉시 어떻게 답해야 할지 잊어버렸습니다. 복잡한 수학이 있든 없든 상관없었습니다. 로봇은 그것을 무시했습니다.
  • 방법 B: 교체 (Patching)
    그들은 다른 "슬롯 번호 (DD)"를 가지고 있지만 같은 큰 숫자와 밑수를 가진 "기증자" 로봇을 가져왔습니다. 그리고 기증자의 뇌 신호를 원래 로봇의 뇌로 교체했습니다.

    • 결과: 원래 로봇은 갑자기 기증자의 답을 내놓았습니다. 하지만 이는 **슬롯 번호 (DD)**가 다를 때만 발생했습니다. 만약 큰 숫자 (NN) 나 밑수 (BB) 를 교체했다면, 로봇은 아무런 반응을 보이지 않았습니다.
    • 결론: 로봇은 정답을 결정하기 위해 복잡한 수학 (청사진) 을 사용하지 않았습니다. 로봇은 오직 "슬롯 번호 (DD)"에 직접 반응했을 뿐입니다.

4. "숨겨진 경로" 발견

마지막으로, 그들은 정보가 실제로 이동한 경로를 매핑했습니다.

  • 그들이 예상한 것: NN, BB, DD가 모두 만나 복잡한 수학 공식으로 섞인 다음 정답을 만들어내는 단일하고 조직적인 고속도로.
  • 그들이 발견한 것: 로봇에는 세 개의 분리된 작은 길이 있습니다. 하나는 큰 숫자를 운반하고, 하나는 밑수를 운반하며, 하나는 슬롯 번호를 운반합니다. 이 길들은 거의 전체 여정 동안 분리되어 유지됩니다. 정답이 기록되기 직전인 마지막 순간에야 비로소 만납니다. 로봇은 복잡한 "보조 숫자"를 만들어 전달하지 않았습니다. 그저 마지막 순간까지 재료를 분리해 두었을 뿐입니다.

큰 교훈: "표현됨"은 "계산됨"이 아니다

이 논문의 주요 제목이 모든 것을 말해줍니다: "표현됨은 계산됨이 아니다 (Represented Is Not Computed)."

  • 표현됨: 로봇의 두뇌는 복잡한 수학 숫자들을 담고 있었습니다. 두뇌를 살펴보면 그 숫자들을 명확하게 볼 수 있었습니다 (배낭에서 지도를 찾는 것과 같습니다).
  • 계산됨: 로봇은 그 숫자들을 운전하는 데 사용하지 않았습니다. 로봇은 지름길을 택했습니다.

비유:
당신이 파티로 운전한다고 상상해 보세요. 당신은 글러브 박스에 모든 회전, 신호등, 지름길을 보여주는 상세한 손으로 그린 지도 ("표현된" 수학) 를 가지고 있습니다.

  • 프로브: 당신은 글러브 박스를 들여다보며 말합니다. "아하! 당신은 지도를 가지고 있군! 당신은 지도를 보고 운전하고 있구나!"
  • 현실: 당신은 실제로는 경로를 외우고 본능으로 운전하고 있었습니다. 지도를 치워도 당신은 여전히 그곳에 도착합니다. 누군가의 지도로 지도를 교체해도 당신은 상관하지 않습니다. 당신은 지도를 보고 있지 않기 때문입니다.

요약:
로봇은 수학 문제를 완벽하게 해결했고, 규칙을 따르는 것처럼 보이는 방식으로 수학 단계에 대해 "생각"하기도 했습니다. 하지만 로봇이 정답을 내게 한 실제 원인이 무엇인지 테스트했을 때, 그들은 로봇이 복잡한 단계를 무시하고 요청받은 특정 "슬롯"에 직접 반응하고 있음을 발견했습니다.

이 논문은 우리에게 경고합니다: 신경망 내부에서 정보를 찾을 수 있다는 사실만으로, 그 신경망이 실제로 결정을 내리기 위해 그 정보를 사용하고 있다는 뜻은 아닙니다. 우리는 내용물을 살펴보는 것뿐만 아니라 원인을 테스트해야 합니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →