Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

이 논문은 오프-바이-원 덧셈 과제를 통해 언어 모델이 표준 연산에서 새로운 함수를 유추하는 '함수 유도 (function induction)' 메커니즘을 발견하고, 이것이 병렬적으로 작동하며 다양한 작업에 재사용되어 작업 수준의 일반화를 가능하게 한다는 해석 가능성 연구를 제시합니다.

Qinyuan Ye, Robin Jia, Xiang Ren

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧩 1. 연구의 시작: "1+1=3?"이라는 미친 질문

일반적으로 우리는 1+1=2 라고 배웁니다. 하지만 연구자들은 AI 에게 다음과 같은 이상한 예시들을 보여줬습니다.

  • "1+1=3"
  • "2+2=5"
  • "3+3=?"

AI 는 여기서 단순히 숫자를 더하는 게 아니라, '결과에 1 을 더하는' 새로운 규칙을 깨달아야 합니다. 즉, 3+3=6 이 아니라 7을 답해야 하는 거죠.

이건 마치 아이에게 "사과 1 개에 배 1 개를 더하면 사과 2 개가 아니라, 사과 3 개가 돼!"라고 가르친 뒤, "오렌지 2 개에 포도 2 개를 더하면 몇 개?"라고 물었을 때, 단순히 4 가 아니라 5라고 대답하게 만드는 것과 같습니다.

🔍 2. AI 의 뇌 속을 들여다보다: '기능 유도 (Function Induction)'

연구자들은 AI 가 이 이상한 규칙을 어떻게 배웠는지, 뇌 속의 어떤 부분이 작동하는지 '해부'했습니다. 그 결과, 놀라운 메커니즘을 발견했습니다.

🏗️ 비유: 공장 컨베이어 벨트와 특수한 로봇 팔들

AI 의 뇌는 거대한 공장과 같습니다. 정보가 들어와서 여러 단계 (레이어) 를 거쳐 나옵니다. 이 연구는 이 공장에서 **세 가지 종류의 특수한 로봇 팔 (어텐션 헤드)**이 협력한다는 것을 발견했습니다.

  1. 감지 로봇 (Previous Token Heads):
    • 역할: "어? 뭔가 이상해!"라고 감지합니다.
    • 비유: 공장에서 "1+1=2"라고 적힌 종이를 보다가, 갑자기 "1+1=3"이라고 적힌 종이를 보면, "아, 오늘 규칙이 바뀌었구나!"라고 눈치채는 감시원입니다.
  2. 전달 로봇 (Function Induction Heads):
    • 역할: "규칙을 전달해!"라고 외칩니다.
    • 비유: 감시원이 발견한 '규칙 변경 (결과에 +1)'이라는 정보를, 공장의 다음 단계로 쏙쏙 전달하는 택배 기사들입니다. 이 로봇 팔들은 각각 규칙의 한 조각 (예: 숫자를 1 씩 올리는 힘) 을 담당해서 합쳐집니다.
  3. 정리 로봇 (Consolidation Heads):
    • 역할: "자, 최종 답을 내자."
    • 비유: 전달된 정보를 받아서 최종적으로 "7"이라고 답을 작성하는 포장 담당자입니다.

이 세 로봇이 함께 움직여야 AI 는 1+1=3 같은 새로운 규칙을 배울 수 있습니다. 연구자들은 이를 **'기능 유도 (Function Induction)'**라고 불렀습니다. 단순히 글자를 복사하는 게 아니라, '작동 원리 (함수)' 자체를 배운 것입니다.

🌍 3. 이 발견이 왜 중요할까? (범용성)

이 로봇들 (메커니즘) 은 '1+1=3'이라는 한 가지 문제에만 쓰이는 게 아닙니다. 연구자들은 이 로봇들이 다른 복잡한 문제에서도 똑같이 작동한다는 것을 발견했습니다.

  • 알파벳 암호 (Caesar Cipher): "A 를 B 로, B 를 C 로 바꾸는" 규칙을 배울 때.
  • 다른 진법 덧셈 (Base-8 Addition): 8 진법으로 계산할 때.
  • 객관식 문제: 정답이 A 라면 B 로 바꾸는 문제.

비유: 마치 우리가 '물레방아'를 배워서 물만 돌리는 게 아니라, 그 원리를 이해하면 바람을 이용해서 전기를 만들거나 곡식을 찧는 데도 쓸 수 있는 것과 같습니다. AI 는 **'규칙을 찾아내고 적용하는 능력'**이라는 하나의 도구를 익혀서, 전혀 다른 문제 상황에서도 그 도구를 꺼내 써먹는 것입니다.

💡 4. 결론: AI 는 어떻게 똑똑해지는가?

이 연구는 AI 가 단순히 방대한 데이터를 외우는 '주입식 학습'을 하는 게 아니라, 새로운 상황에서도 논리적 규칙을 추론하고 적용할 수 있는 능력을 가지고 있음을 보여줍니다.

  • 기존 생각: AI 는 예시를 보고 답을 복사하는 것 같다.
  • 이 연구의 발견: AI 는 예시를 보고 '왜' 그런 답이 나오는지 그 원리 (함수) 를 유도하고, 그 원리를 다른 문제에도 적용한다.

🚀 요약

이 논문은 **"AI 가 새로운 미스터리한 규칙 (1+1=3) 을 보고, 뇌속의 특수한 로봇 팔들이 협력하여 그 규칙을 깨닫고, 그 규칙을 다른 문제 (암호, 다른 진법 등) 에까지 적용하는 능력"**을 발견했다는 것을 알려줍니다.

이는 AI 가 앞으로 더 복잡한 문제를 스스로 해결하고, 우리가 가르치지 않은 새로운 일도 해낼 수 있다는 희망적인 신호입니다. 마치 아이가 "사과 1 개 + 사과 1 개 = 2 개"를 배우고, 나중에 "사과 1 개 + 배 1 개 = 2 개"도 이해하는 것처럼, AI 도 원리를 깨닫는 단계로 진화하고 있다는 뜻입니다.