Gradient Atoms: Unsupervised Discovery, Attribution and Steering of Model Behaviors via Sparse Decomposition of Training Gradients

이 논문은 사전 학습된 모델의 행동과 관련된 훈련 데이터를 개별 문서가 아닌 '그래디언트 원자 (Gradient Atoms)'라는 희소 구성 요소로 분해하여, 레이블 없이도 해석 가능한 행동 (거부, 산술 등) 을 발견하고 모델 행동을 효과적으로 제어할 수 있는 비지도 학습 방법론인 'Gradient Atoms'를 제안합니다.

J Rosser

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제: "비행기 추락의 원인은 어느 비?"

기존의 AI 분석 방법 (TDA) 은 **"어떤 훈련 문서가 AI 의 특정 행동을 만들었는가?"**라고 묻습니다.
예를 들어, AI 가 수학 문제를 잘 푼다면, "아! 이 100 개의 수학 문제 중 42 번째 문서가 그 원인이야!"라고 특정 문서를 찾아내려 합니다.

하지만 저자는 이를 비유로 설명합니다.

"강물이 흐르는 방향을 결정하는 것이 단 한 방울의 비 때문이라고 말하는 것과 같습니다."

AI 는 하나의 문서만 보고 배우는 게 아니라, 수백 개의 비슷한 예시들이 모두 같은 방향으로 AI 의 뇌 (가중치) 를 밀어붙여서 배우는 것입니다. 따라서 특정 문서 하나를 찾아내는 것은 의미가 없으며, AI 가 배운 **'공통된 학습 패턴'**을 찾아야 합니다.

2. 새로운 아이디어: "그라디언트 아톰 (Gradient Atoms)"

저자가 제안한 **'그라디언트 아톰'**은 AI 가 배운 내용을 **작은 '원자 (Atom)'**처럼 쪼개어 보는 방법입니다.

🧩 비유: 거대한 레고 성을 분해하기

AI 가 배운 지식은 거대한 레고 성처럼 복잡합니다. 기존 방식은 "이 성을 만든 레고 블록 중 어느 하나가 가장 중요해?"라고 묻는다면, 이 새로운 방식은 **"이 성을 이루고 있는 '기능별' 레고 덩어리들 (아톰) 을 찾아내자"**라고 합니다.

  • 어떻게 하나요?
    AI 가 학습할 때 뇌 (가중치) 가 어떻게 변하는지 (그라디언트) 를 모두 모아서, 자동으로 비슷한 변형 패턴끼리 뭉치게 합니다.
  • 결과:
    AI 는 스스로 "나는 이 아톰을 통해 '수학'을 배웠고, 저 아톰을 통해 '거절하기'를 배웠다"는 것을 찾아냅니다. 사람이 미리 "수학"이라고 알려주지 않아도 AI 가 스스로 발견합니다.

3. 이 기술의 마법: "조절 가능한 나침반"

이렇게 찾아낸 '아톰'들은 단순히 분석용이 아니라, **AI 의 행동을 조절하는 나침반 (Steering Vectors)**처럼 쓸 수 있습니다.

🎛️ 비유: 라디오 주파수 조절

AI 의 뇌에 이 '아톰'을 살짝 더하거나 빼면, AI 의 행동이 극적으로 바뀝니다. 마치 라디오 주파수를 돌려 특정 방송만 크게 들리게 하거나, 잡음을 완전히 차단하는 것과 같습니다.

실제 실험 결과 (놀라운 변화):

  • 글머리 기호 (Bullet points) 생성: 평소 33% 만 쓰던 것을 **94%**까지 늘릴 수 있음. (반대로 0% 로 완전히 끄기도 함)
  • 거절 (Refusal) 행동: AI 가 "입력이 부족합니다"라고 거절하는 행동을 50% 에서 0% 로 완전히 없애버림. (그 대신 "네, 알겠습니다"라고 대답하게 함)
  • 코드 생성: 코드를 작성하는 비율을 42% 에서 58% 로 높이거나, 28% 로 낮출 수 있음.

4. 왜 이것이 중요한가요?

  1. 미리 알 필요 없음 (Unsupervised): "무엇을 찾아볼까?"라고 미리 질문할 필요가 없습니다. AI 가 배운 모든 패턴을 자동으로 찾아냅니다.
  2. 빠르고 효율적: 수천 개의 문서를 하나하나 검사할 필요가 없습니다. 한 번의 분석으로 수백 가지 행동을 동시에 발견합니다.
  3. 실제 조절 가능: 단순히 "왜 그랬지?"를 아는 것을 넘어, **"이렇게 바꿔보자"**라고 직접 AI 의 성격을 바꿀 수 있습니다.

📝 한 줄 요약

**"AI 가 배운 수많은 지식들을 '작은 원자' 단위로 쪼개어, 우리가 원하는 대로 AI 의 행동을 조절할 수 있는 '스위치'를 찾아낸 기술"**입니다.

이 기술은 AI 가 왜 그런 행동을 하는지 이해하는 것을 넘어, 우리가 원하지 않는 행동 (예: 불필요한 거절) 을 끄고, 원하는 행동 (예: 깔끔한 목록 작성) 을 켜는 정밀한 AI 제어를 가능하게 합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →