Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제: "비행기 추락의 원인은 어느 비?"

기존의 AI 분석 방법 (TDA) 은 **"어떤 훈련 문서가 AI 의 특정 행동을 만들었는가?"**라고 묻습니다.
예를 들어, AI 가 수학 문제를 잘 푼다면, "아! 이 100 개의 수학 문제 중 42 번째 문서가 그 원인이야!"라고 특정 문서를 찾아내려 합니다.

하지만 저자는 이를 비유로 설명합니다.

"강물이 흐르는 방향을 결정하는 것이 단 한 방울의 비 때문이라고 말하는 것과 같습니다."

AI 는 하나의 문서만 보고 배우는 게 아니라, 수백 개의 비슷한 예시들이 모두 같은 방향으로 AI 의 뇌 (가중치) 를 밀어붙여서 배우는 것입니다. 따라서 특정 문서 하나를 찾아내는 것은 의미가 없으며, AI 가 배운 **'공통된 학습 패턴'**을 찾아야 합니다.

2. 새로운 아이디어: "그라디언트 아톰 (Gradient Atoms)"

저자가 제안한 **'그라디언트 아톰'**은 AI 가 배운 내용을 **작은 '원자 (Atom)'**처럼 쪼개어 보는 방법입니다.

🧩 비유: 거대한 레고 성을 분해하기

AI 가 배운 지식은 거대한 레고 성처럼 복잡합니다. 기존 방식은 "이 성을 만든 레고 블록 중 어느 하나가 가장 중요해?"라고 묻는다면, 이 새로운 방식은 **"이 성을 이루고 있는 '기능별' 레고 덩어리들 (아톰) 을 찾아내자"**라고 합니다.

어떻게 하나요?
AI 가 학습할 때 뇌 (가중치) 가 어떻게 변하는지 (그라디언트) 를 모두 모아서, 자동으로 비슷한 변형 패턴끼리 뭉치게 합니다.
결과:
AI 는 스스로 "나는 이 아톰을 통해 '수학'을 배웠고, 저 아톰을 통해 '거절하기'를 배웠다"는 것을 찾아냅니다. 사람이 미리 "수학"이라고 알려주지 않아도 AI 가 스스로 발견합니다.

3. 이 기술의 마법: "조절 가능한 나침반"

이렇게 찾아낸 '아톰'들은 단순히 분석용이 아니라, **AI 의 행동을 조절하는 나침반 (Steering Vectors)**처럼 쓸 수 있습니다.

🎛️ 비유: 라디오 주파수 조절

AI 의 뇌에 이 '아톰'을 살짝 더하거나 빼면, AI 의 행동이 극적으로 바뀝니다. 마치 라디오 주파수를 돌려 특정 방송만 크게 들리게 하거나, 잡음을 완전히 차단하는 것과 같습니다.

실제 실험 결과 (놀라운 변화):

글머리 기호 (Bullet points) 생성: 평소 33% 만 쓰던 것을 **94%**까지 늘릴 수 있음. (반대로 0% 로 완전히 끄기도 함)
거절 (Refusal) 행동: AI 가 "입력이 부족합니다"라고 거절하는 행동을 50% 에서 0% 로 완전히 없애버림. (그 대신 "네, 알겠습니다"라고 대답하게 함)
코드 생성: 코드를 작성하는 비율을 42% 에서 58% 로 높이거나, 28% 로 낮출 수 있음.

4. 왜 이것이 중요한가요?

미리 알 필요 없음 (Unsupervised): "무엇을 찾아볼까?"라고 미리 질문할 필요가 없습니다. AI 가 배운 모든 패턴을 자동으로 찾아냅니다.
빠르고 효율적: 수천 개의 문서를 하나하나 검사할 필요가 없습니다. 한 번의 분석으로 수백 가지 행동을 동시에 발견합니다.
실제 조절 가능: 단순히 "왜 그랬지?"를 아는 것을 넘어, **"이렇게 바꿔보자"**라고 직접 AI 의 성격을 바꿀 수 있습니다.

📝 한 줄 요약

**"AI 가 배운 수많은 지식들을 '작은 원자' 단위로 쪼개어, 우리가 원하는 대로 AI 의 행동을 조절할 수 있는 '스위치'를 찾아낸 기술"**입니다.

이 기술은 AI 가 왜 그런 행동을 하는지 이해하는 것을 넘어, 우리가 원하지 않는 행동 (예: 불필요한 거절) 을 끄고, 원하는 행동 (예: 깔끔한 목록 작성) 을 켜는 정밀한 AI 제어를 가능하게 합니다.

Each language version is independently generated for its own context, not a direct translation.

Gradient Atoms: 훈련 그래디언트의 희소 분해를 통한 모델 행동의 비지도 발견, 귀속 및 제어

이 논문은 언어 모델의 미세 조정 (fine-tuning) 과정에서 모델이 무엇을 학습했는지를 이해하기 위한 새로운 프레임워크인 Gradient Atoms를 제안합니다. 저자는 기존 훈련 데이터 귀속 (Training Data Attribution, TDA) 방법론의 한계를 지적하고, 훈련 그래디언트를 희소 성분 (sparse components, '원자') 으로 분해하여 비지도 방식으로 모델의 행동 패턴을 발견하고 이를 직접적으로 제어할 수 있는 방법을 제시합니다.

1. 문제 제기 (Problem Statement)

기존의 훈련 데이터 귀속 (TDA) 방법론은 "특정 모델 행동에 어떤 훈련 문서가 기여했는가?"라는 질문을 전제로 합니다. 그러나 저자는 이 접근 방식에 두 가지 근본적인 문제가 있다고 주장합니다.

분석 단위의 오류: 모델은 개별 문서 하나하나를 독립적으로 학습하는 것이 아니라, 수백 개의 유사한 예시들이 공유하는 '업데이트 방향 (update direction)'을 학습합니다. 예를 들어, 산술 능력을 학습하는 것은 특정 하나의 산술 예제 때문이 아니라, 수백 개의 산술 예제들이 모델 가중치를 같은 방향으로 이동시키기 때문입니다. 따라서 개별 문서에 행동을 귀속시키는 것은 '강의 흐름을 단일 빗방울에 귀속시키는 것'과 같은 오류입니다.
지도 학습의 비효율성: 기존 TDA 는 사용자가 미리 특정 행동 (쿼리) 을 정의해야 하며, 모든 훈련 문서를 해당 쿼리에 대해 점수화해야 합니다 (O(N) 또는 O(Q×N) 복잡도). 이는 사용자가 생각하지 못한 행동을 발견할 수 없으며, 대규모 모델과 데이터셋에서 계산 비용이 매우 높다는 한계가 있습니다.

2. 방법론 (Methodology)

Gradient Atoms는 개별 문서가 아닌, 문서 군집이 공유하는 '공통 업데이트 방향'을 찾는 것을 목표로 합니다. 전체 훈련 그래디언트 공간을 희소 사전 학습 (Sparse Dictionary Learning) 을 통해 분해하여 의미 있는 행동 패턴을 추출합니다.

핵심 파이프라인 (5 단계)

문서별 그래디언트 추출: 각 훈련 문서 $x_i$ 에 대해 교차 엔트로피 손실의 그래디언트 $g_i$ 를 계산합니다.
EKFAC 프로젝션 및 전처리 (Preconditioning):
- 원시 그래디언트 공간은 이방성 (anisotropic) 이어서 곡률이 큰 방향이 분해를 지배할 수 있습니다.
- 이를 해결하기 위해 **EKFAC (Extended Kronecker-Factored Approximate Curvature)**를 사용하여 피셔 정보 행렬의 고유벡터로 프로젝션하고, 고유값으로 정규화합니다. 이는 모든 방향이 손실 변화에 대해 동등하게 작용하도록 만들어, 의미 있는 기능적 방향을 포착할 수 있게 합니다.
희소 사전 학습 (Sparse Dictionary Learning):
- 정규화된 그래디언트를 희소 선형 결합으로 분해합니다: $\hat{g}_i \approx \sum \alpha_{ij} d_j$ .
- 여기서 $d_j$ 는 Gradient Atom이며, 각 문서 $i$ 는 소수의 원자 ( $\alpha_{ij} \neq 0$ ) 로 설명됩니다. 희소성 패널티는 각 원자가 단일한 패턴 (행동) 을 포착하도록 유도합니다.
일관성 점수 (Coherence Scoring):
- 각 원자를 활성화하는 문서들 간의 원시 그래디언트 코사인 유사도를 계산하여 '일관성'을 측정합니다. 높은 일관성은 해당 원자가 실제 의미 있는 계산 모티프를 포착했음을 의미합니다.
스팀링 벡터로의 역투사 (Unprojection):
- 발견된 원자 $d_j$ 를 전체 가중치 공간 벡터 $v_j$ 로 역투사합니다. 이 벡터는 모델 가중치에 직접적인 교란 ( $\theta_{new} = \theta \pm \alpha \cdot v_j$ ) 을 가하여 모델 행동을 제어하는 **스팀링 벡터 (Steering Vector)**로 사용됩니다.

3. 주요 기여 (Key Contributions)

새로운 TDA 패러다임: 개별 문서 기반의 귀속에서 벗어나, 문서 군집이 유도하는 공유 업데이트 방향 (Gradient Atoms) 으로 훈련 데이터 분석을 재정의했습니다.
비지도 행동 발견: 행동 레이블이나 쿼리 기반 점수화 없이, 훈련 그래디언트만으로 해석 가능한 작업 유형 (Task Types) 을 발견하는 방법을 제시했습니다.
행동 제어 (Steering): 발견된 원자가 직접적인 가중치 교란 벡터로 작용하여 모델 행동을 크고 제어 가능하게 변화시킬 수 있음을 실험적으로 증명했습니다.

4. 실험 결과 (Results)

저자는 Gemma-3 4B IT 모델을 5,000 개의 지시 - 응답 쌍으로 미세 조정하고, 이를 기반으로 Gradient Atoms 를 추출했습니다.

4.1 원자 발견 (Atom Discovery)

500 개의 원자를 발견했으며, 그중 일관성 점수가 높은 원자들은 명확한 작업 유형을 나타냈습니다.
고일관성 원자 (Coherence > 0.5): 짧은 사실적 QA, 문법 편집, 예/아니오 분류, 단순 산술, 다중 카테고리 분류 등.
발견된 행동의 특성:
- 작업 유형 중심: 주제 (과학, 역사) 가 아닌 모델의 응답 방식 (산술, 분류, 코드 생성) 을 기반으로 군집화되었습니다.
- 세분화: 문법 교정은 3 개, 코드 생성은 5 개의 서로 다른 원자로 발견되어 문장 복잡도나 프로그래밍 언어에 따른 세부 패턴을 포착했습니다.
- 포맷 및 거절: 불릿 포인트 생성, 번호 매기기 생성, 그리고 입력이 부족할 때 발생하는 체계적인 거절 (Systematic Refusal) 행동도 별도의 원자로 발견되었습니다.

4.2 행동 제어 (Behavioral Steering)

발견된 5 개의 원자를 가중치 교란 벡터로 사용하여 모델 행동을 테스트했습니다.

불릿 리스트 생성 (Atom #469): 베이스라인 33% 에서 **+61pp 증가 (94%)**로 극적인 향상을 보였으며, 반대 방향으로는 0% 로 완전히 억제되었습니다.
체계적 거절 (Atom #161): 베이스라인 50% 에서 **+50pp 감소 (0%)**로 완전히 억제되었습니다. 모델이 미흡한 프롬프트에 대해 "입력을 제공해 주세요"라고 묻는 대신 "알겠습니다"라고 답변하도록 변경되었습니다.
코드 생성 (Atom #64): 42% 에서 58% 로 증가하거나 28% 로 감소했습니다.
예/아니오 분류 (Atom #415): 39% 에서 0% 로 강력하게 억제되었습니다.
통찰: 모든 원자가 특정 행동을 **억제 (Suppression)**하는 데 매우 효과적이었으나, 증폭 (Amplification) 은 상대적으로 어려웠습니다. 이는 특정 계산 경로를 방해하는 것이 강화하는 것보다 쉽기 때문일 수 있습니다. 또한, 일관성 점수 (Coherence) 가 높다고 해서 반드시 제어 효과가 큰 것은 아니었습니다 (예: #469 는 일관성이 낮았으나 제어 효과가 가장 컸음).

5. 의의 및 결론 (Significance & Conclusion)

Gradient Atoms는 다음과 같은 의의를 가집니다:

지식 발견의 자동화: 레이블이 없는 상태에서 모델이 학습한 추상적인 행동 패턴 (작업 유형) 을 자동으로 발견할 수 있습니다.
효율성: 쿼리별 점수화 과정이 없어, 관심 있는 행동의 수에 관계없이 확장 가능합니다.
실용적 제어: 발견된 원자를 바로 스팀링 벡터로 사용하여 모델의 행동을 정밀하게 조절할 수 있습니다. 이는 모델 편집 (Model Editing) 과 비지도 행동 발견을 연결하는 중요한 다리 역할을 합니다.

이 연구는 모델이 "무엇을" 학습했는지 (주제) 가 아니라 "어떻게" 학습했는지 (계산 경로 및 업데이트 방향) 에 초점을 맞춤으로써, 대규모 언어 모델의 내부 작동 원리를 이해하고 제어하는 새로운 지평을 열었습니다.

Gradient Atoms: Unsupervised Discovery, Attribution and Steering of Model Behaviors via Sparse Decomposition of Training Gradients