Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식 vs. 새로운 방식 (INFUSION)

기존 방식 (명시적 주입):
imagine 하세요. AI 가 '고양이'를 인식하도록 가르치려고 하는데, 해커가 훈련 데이터에 가짜 고양이 사진 100 장을 억지로 넣는 겁니다. "이게 고양이야!"라고 소리치며 강제로 가르치는 방식입니다.
- 문제점: AI 가 "아, 이상한 사진이 많이 들어왔네"라고 눈치채기 쉽고, 필터링하기 쉽습니다.
INFUSION 방식 (미세한 변조):
해커는 가짜 사진을 넣지 않습니다. 대신, 이미 있는 진짜 훈련 데이터 (예: '개' 사진) 100 장을 아주 미세하게, 사람의 눈으로는 절대 구별할 수 없게 수정합니다.
- 비유: 요리사가 만든 맛있는 스프 (AI) 에, 소금 한 꼬집을 아주 정교하게 섞는 것과 같습니다. 스프의 맛은 거의 그대로 유지되지만, 해커가 원하는 특정 맛 (예: '고양이'라는 이름의 맛) 이 나게 만들 수 있습니다.
- 핵심: AI 가 "고양이"라는 개념을 직접 보지 않아도, 훈련 데이터의 미세한 변화가 AI 의 뇌 (매개변수) 를 움직여, 나중에 '고양이'를 '배'로 착각하게 만들 수 있습니다.

2. INFUSION 이 어떻게 작동할까요? (영향 함수의 마법)

이 기술의 핵심은 **'영향 함수 (Influence Functions)'**라는 수학적 도구입니다.

비유: "누가 내 인생을 바꿨을까?"
보통은 "어떤 책이 내 인생에 가장 큰 영향을 줬을까?"를 분석할 때, 그 책을 다시 읽거나 책을 뺏어보며 실험합니다. 하지만 책이 수조 권이면 불가능하죠.
INFUSION 은 수학적으로 계산해서 "이 책 한 장을 살짝만 수정하면, 내 인생 (AI 의 행동) 이 이렇게 바뀔 것이다"라고 미리 예측합니다.
작동 과정:
1. 목표 설정: "이 자동차 사진을 배로 인식하게 만들고 싶다."
2. 범인 찾기: 수만 장의 훈련 데이터 중에서, 이 목표를 달성하는 데 가장 큰 영향을 미치는 '범인' (데이터) 100 장을 찾아냅니다.
3. 미세한 조작: 그 100 장의 데이터를 수학적으로 계산된 대로 아주 살짝 (픽셀 하나 두 개만) 바꿉니다.
4. 재훈련: 이 살짝 변형된 데이터로 AI 를 다시 훈련시킵니다.
5. 결과: AI 는 여전히 똑똑하지만, 특정 상황에서는 해커가 원하는 대로 행동합니다.

3. 실험 결과: 얼마나 위험할까요?

연구진은 이 방법을 다양한 AI 에 적용해 보았습니다.

이미지 인식 (CIFAR-10):
- 훈련 데이터의 **0.2% (약 100 장)**만 살짝 건드려도, AI 가 자동차를 배로 인식할 확률이 10% 에서 37% 로 급증했습니다.
- 놀라운 점: 한 모델 (ResNet) 로 만든 변형 데이터가, 완전히 다른 모델 (CNN) 을 훈련시킬 때도 통했습니다. 즉, 한 번 만든 '독'이 여러 AI 에게도 퍼질 수 있다는 뜻입니다.
언어 모델 (GPT-Neo):
- 언어 모델에서는 더 어려웠지만, 여전히 효과가 있었습니다.
- 예: AI 가 "벌 (bee)"이라고 예측할 때, "고양이 (cat)"라고 예측하게 만드는 실험을 했습니다.
- 한계: AI 가 이미 확실히 배운 지식 (예: 29 자 알파벳의 복잡한 규칙) 을 완전히 뒤집기는 어렵지만, 기존에 AI 가 가지고 있던 약한 경향성 (잠재적 행동) 을 증폭시키는 데는 매우 효과적이었습니다.

4. 왜 이것이 중요한가요? (경고와 시사점)

이 연구는 우리에게 두 가지 큰 경고를 줍니다.

방어하기 어렵다:
- 기존의 방어법은 "이상한 글이나 이미지가 섞여 있나?"를 확인합니다. 하지만 INFUSION 은 원래 있던 정상적인 데이터를 살짝만 건드렸기 때문에, 필터링 프로그램은 "아, 이건 정상적인 데이터야"라고 생각할 것입니다.
- 마치 진짜 사과에 독을 아주 미세하게 주입한 것과 같아서, 겉보기엔 멀쩡해 보입니다.
데이터의 중요성:
- 우리는 AI 가 얼마나 똑똑한지에만 집중하지만, 어떤 데이터로 배웠는지가 훨씬 더 중요합니다.
- 이 공격은 AI 가 '정렬 (Alignment)' 과정을 거친 후에도, 그 독이 남아있을 수 있음을 시사합니다. 즉, AI 가 안전하다고 생각해도, 훈련 데이터에 숨겨진 '미세한 독'이 있을 수 있습니다.

요약

INFUSION은 AI 를 해킹하는 새로운 방법입니다.

"새로운 가짜 데이터를 넣지 말고, 이미 있는 진짜 데이터를 수학적으로 아주 미세하게 수정해서 AI 의 뇌를 속여라."

이 기술은 AI 의 취약점을 보여줄 뿐만 아니라, 앞으로 AI 를 안전하게 만들기 위해서는 훈련 데이터의 출처와 무결성을 철저히 관리해야 함을 강력하게 경고하고 있습니다. 마치 우리가 음식을 먹을 때, 재료의 신선도뿐만 아니라 조리 과정의 미세한 변화까지 신경 써야 하듯이 말입니다.

Each language version is independently generated for its own context, not a direct translation.

INFUSION: 영향 함수를 통한 훈련 데이터 편집으로 모델 행동 형성

이 논문은 INFUSION이라는 새로운 프레임워크를 제안하며, 이는 기존 데이터 중독 (Data Poisoning) 공격의 패러다임을 전환합니다. 기존 공격이 목표 행동을 명시적으로 보여주는 예시들을 훈련 데이터에 주입하는 방식이었다면, INFUSION 은 기존 훈련 문서에 미세한 교란 (perturbation) 을 가하여 모델의 파라미터를 목표 상태로 유도하는 방식을 취합니다.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 및 이미지 분류 모델은 통제되지 않은 웹 코퍼스에서 훈련되며, 이는 데이터 중독 공격에 취약합니다. 기존 연구들은 훈련 데이터에 목표 행동을 명시적으로 보여주는 '백도어' 예시들을 소량 주입하여 모델을 조작했습니다.
하지만 저자는 다음과 같은 근본적인 질문을 제기합니다: "목표 행동을 명시적으로 보여주지 않고도, 기존 훈련 문서에 정밀하고 최소한의 수정을 가해 모델을 특정 파라미터 상태로 유도할 수 있는가?"
이 문제는 어떤 훈련 토큰을 수정해야 하며, 어떻게 수정해야 하는지 파악하는 것이 매우 어렵다는 점 (수조 개의 토큰 중 후보를 찾는 문제) 에서 비롯됩니다. 기존 방식은 모든 후보 교란에 대해 모델을 재훈련해야 하므로 계산 비용이 막대합니다.

2. 방법론 (Methodology: INFUSION)

INFUSION 은 확장 가능한 영향 함수 (Influence Functions) 추정을 활용하여 훈련 데이터를 편집합니다. 이 프레임워크는 다음 세 가지 단계를 거칩니다.

2.1 핵심 원리

영향 함수는 특정 훈련 데이터 포인트가 모델 예측에 미치는 영향을 재훈련 없이 추정하는 도구입니다. INFUSION 은 이를 반대로 사용하여, 문서 $z$ 를 교란된 문서 $z + \delta$ 로 변경했을 때 모델 파라미터 $\theta$ 가 어떻게 변할지 ( $\Delta \hat{\theta}$ ) 를 1 차 근사로 계산합니다.

$\Delta \hat{\theta} \approx -\frac{1}{n} H^{-1}_{\hat{\theta}} \left[ \nabla_z \nabla_\theta L(z, \hat{\theta}) \right] \delta$

여기서 $H$ 는 헤시안 (Hessian) 행렬이며, 대규모 모델에서는 계산이 불가능하므로 **EK-FAC (Eigenvalue-Corrected Kronecker-Factored Approximate Curvature)**를 사용하여 근사합니다.

2.2 파이프라인

목표 행동 측정 정의: 원하는 모델 행동 (예: 특정 클래스로 오분류하거나, 특정 단어를 생성) 을 스칼라 함수 $f(\theta)$ 로 정의합니다.
가장 영향력 있는 문서 식별: 목표 측정치에 가장 큰 (부정적인) 영향을 미치는 훈련 문서들을 식별합니다. 즉, 이 문서들의 가중치를 낮추거나 수정하면 목표 행동이 강화될 문서들을 찾습니다.
교란 계산 (Gradient-based Perturbation): 식별된 문서들에 대해, 목표 행동 $f(\theta)$ $f (θ)$ 를 최대화하는 방향으로 교란 $\delta$ $δ$ 를 **프로젝티드 그래디언트 디센트 (PGD)**를 통해 계산합니다.
- 목표: $\max_{\|\delta\| \le \epsilon} \nabla_\theta f(\hat{\theta})^\top \Delta \hat{\theta}$
부분 재훈련: 수정된 문서들로 구성된 '주입된 (Infused)' 데이터셋으로 모델을 일정 기간 (예: 에포크 1 회) 재훈련합니다.
검증: 수정된 모델이 목표 행동을 보이는지 확인합니다.

3. 주요 기여 (Key Contributions)

INFUSION 프레임워크 도입: 영향 함수를 활용하여 훈련 데이터를 식별하고, 그래디언트 기반 교란을 계산하여 적대적 목표를 달성하는 새로운 공격 원리를 제시했습니다.
CIFAR-10 에서의 검증: 2,000 번의 실험에서 100% 성공률을 기록했습니다. 훈련 데이터의 0.2% (100 개 문서) 만 수정하여도 목표 클래스의 확률을 10% 에서 37% 로 크게 높일 수 있음을 증명했습니다.
아키텍처 간 전이 (Transferability): 한 아키텍처 (예: ResNet) 로 계산된 교란이 다른 아키텍처 (예: CNN) 로 훈련된 모델에서도 효과를 발휘함을 확인했습니다. 이는 단일 중독된 코퍼스가 여러 독립적으로 훈련된 모델에 영향을 미칠 수 있음을 시사합니다.
언어 모델 적용 및 한계 분석: GPT-Neo 와 같은 사전 훈련된 언어 모델에서도 적용 가능성을 보였으나, 이산 토큰 공간과 영향 함수 추정의 정확도 저하로 인해 확률 이동은 발생하지만 예측 전환 (prediction flip) 은 드뭅니다. 특히 모델이 이미 학습한 잠재적 행동을 증폭시키는 데 가장 효과적이었습니다.

4. 실험 결과 (Results)

4.1 이미지 분류 (CIFAR-10)

성공률: 2,000/2,000 실험에서 목표 클래스 확률 증가 성공.
비교: 명시적으로 목표 행동 예시 (Probe Insertion) 를 100 개 주입하는 방식과 비교했을 때, INFUSION 은 단일 삽입보다 훨씬 강력하며, 100 개 주입 방식과 경쟁 가능한 성능을 보였습니다.
시각적 특징: 교란된 이미지는 인간에게 시각적으로 감지되지 않지만 (imperceptible), 모델 행동은 극적으로 변화합니다.

4.2 트랜스포머 및 케세어 암호 (Caesar Cipher)

구조적 취약점: 모델이 모듈러 덧셈을 학습한 방식 (원형 푸리에 표현) 에 따라 공격 성공 여부가 결정됨을 발견했습니다.
성공 조건: 모델이 이미 학습한 패턴 (예: 특정 소인수 구조를 가진 시프트) 을 증폭시키는 데 성공적이었으나, 모델이 높은 확신으로 학습한 행동은 변경하기 어려웠습니다.

4.3 언어 모델 (TinyStories)

작은 언어 모델: GPT-Neo(8M 파라미터) 를 TinyStories 데이터셋으로 훈련하는 실험에서, 특정 동물 단어 (예: 'bee') 대신 다른 단어 (예: 'cat') 를 예측하도록 확률을 이동시키는 데 성공했습니다.
한계: 대규모 모델로 확장될수록 영향 함수 근사의 오차가 커지고, 이산 토큰 최적화의 어려움으로 인해 효과가 감소했습니다. 학습된 선호도를 완전히 뒤집는 것은 어렵지만, 확률 분포를 미세하게 조정 (nudge) 하는 것은 가능했습니다.

5. 의의 및 시사점 (Significance)

5.1 보안 위협

은밀한 공격: INFUSION 은 목표 행동을 명시적으로 보여주지 않으므로, 퍼플렉시티 필터나 유해성 분류기 같은 표면적 속성 기반의 방어 기법을 우회할 수 있습니다.
전이성: 한 모델에서 계산된 교란이 다른 아키텍처나 다른 모델에도 영향을 미칠 수 있으므로, 공개된 모델을 통해 사설 모델에 대한 공격을 계획할 수 있습니다.
훈련 데이터의 중요성: 소량의 교란만으로도 모델 행동을 체계적으로 조작할 수 있음을 보여주어, 훈련 데이터의 해석 가능성과 무결성이 방어자와 공격자 모두에게 중요함을 강조합니다.

5.2 방어 및 향후 연구

방어 전략: 영향 기반 이상 탐지, 데이터 출처 추적 (Provenance), 문서 간 영향 집중 정규화 등의 방어 기법이 필요함을 시사합니다.
미래 방향: 현재 연구는 재훈련 기간이 짧거나 모델이 작을 때 효과적이었으나, 영향 함수를 전체 훈련 파이프라인 (파인튜닝, RLHF 등) 으로 확장하여 공격이 어떻게 지속될 수 있는지 연구해야 합니다.

결론적으로, INFUSION 은 훈련 데이터에 대한 해석 도구였던 영향 함수를 적대적 공격의 원시 도구로 재탄생시켰으며, 훈련 데이터의 미세한 편집이 모델의 행동을 어떻게 체계적으로 조작할 수 있는지를 보여주었습니다. 이는 AI 안전 분야에서 훈련 시간 위협 (Training-time threats) 에 대한 이해와 방어의 중요성을 다시 한번 일깨워줍니다.

Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions