SYNAPSE: Framework for Neuron Analysis and Perturbation in Sequence Encoding

Each language version is independently generated for its own context, not a direct translation.

1. 왜 이 연구가 필요한가요? (블랙박스 문제)

요즘 AI 는 의료 진단이나 사이버 보안 같은 중요한 일을 합니다. 하지만 AI 는 **"블랙박스"**처럼 작동합니다. 즉, "왜 이 환자가 암이라고 판단했지?" 혹은 "왜 이 파일이 해킹이라고 의심했지?"라고 물어보면 AI 는 대답을 못 합니다.

만약 AI 가 실수하면 큰 재앙이 일어날 수 있습니다. 그래서 우리는 AI 의 내부가 어떻게 작동하는지, 그리고 약한 부분이 어디인지 알아내야 합니다.

2. SYNAPSE 란 무엇인가요? (내부 구조를 훑어보는 안경)

기존의 방법들은 AI 를 다시 훈련시키거나, AI 가 이미 한 일을 뒤늦게 설명하는 데 그쳤습니다. 하지만 SYNAPSE는 다릅니다.

비유: AI 를 거대한 시계라고 상상해 보세요. 기존 방법은 시계가 시간을 잘 재는지 확인하는 것이었습니다. 하지만 SYNAPSE 는 시계를 뜯어보지 않고, 시계 바늘을 살짝 멈추거나 흔들어서 "어느 바늘이 멈추면 시계가 멈추는가?"를 실험하는 도구입니다.
핵심 기능:
1. 관찰: AI 가 데이터를 처리할 때 뇌의 각 층 (Layer) 에서 일어나는 일을 기록합니다.
2. 분석: "어떤 신경 세포 (Neuron) 가 가장 중요한 역할을 하는가?"를 찾아냅니다.
3. 실험 (중요!): AI 를 다시 학습시키지 않고, 실행 중일 때 특정 신경 세포를 일시적으로 끄거나 (Silencing) 약하게 만듭니다.
4. 복원: 실험이 끝나면 AI 는 원래대로 돌아갑니다. 영구적인 손상을 주지 않습니다.

3. SYNAPSE 가 발견한 놀라운 사실들

이 도구를 이용해 AI 를 테스트한 결과, 몇 가지 흥미로운 패턴이 나왔습니다.

① 정보의 분산 (여러 명이 한 일을 하는 것)

과거의 생각: "특정 중요한 일을 하는 신경 세포가 딱 하나 있겠지?"라고 생각했습니다.
SYNAPSE 의 발견: 아니었습니다. 중요한 정보는 수많은 신경 세포들이 서로 겹쳐서 담당하고 있었습니다.
비유: 한 팀의 프로젝트가 한 명의 천재에게만 의존하는 게 아니라, 팀원 전체가 서로 정보를 공유하며 일하는 것과 같습니다. 그래서 몇몇 팀원을 잠시 쉬게 해도 팀은 여전히 일을 잘 해냅니다. 이는 AI 가 꽤 **튼튼함 (Robust)**을 의미합니다.

② 약한 고리 (특정 상황에 취약함)

하지만 모든 것이 완벽하지는 않습니다. **특정 종류의 문제 (예: 특정 악성코드나 특정 감정)**를 처리할 때는 아주 작은 부분만 건드려도 AI 가 망가질 수 있습니다.
비유: 시계는 보통 잘 돌아가지만, **특정 계절 (예: 겨울)**에만 작동하는 작은 나사가 있다면, 그 나사를 살짝만 건드려도 겨울에는 시계가 멈출 수 있습니다. SYNAPSE 는 바로 그 '겨울용 나사'를 찾아냅니다.

③ 다른 공격 방식의 효과

입력 조작 (FGSM 등): AI 가 보는 입력 데이터 (이미지나 텍스트) 를 살짝 변형하면 AI 가 헷갈릴 수 있습니다.
내부 조작 (SYNAPSE 방식): 입력을 건드리지 않고, AI 내부의 '신경 세포'를 끄거나 '결정 기준 (가중치)'을 살짝 비틀면, AI 는 완전히 다른 결론을 내릴 수 있습니다.
발견: 입력을 살짝 변형하는 것보다, AI 의 내부 결정 기준 (무게) 을 살짝만 비틀어도 AI 는 완전히 엉뚱한 답을 내놓을 수 있었습니다. 이는 AI 가 생각보다 더 쉽게 속아넘어갈 수 있음을 보여줍니다.

4. 이 연구가 왜 중요한가요?

이 연구는 AI 를 더 안전하게 만드는 지도를 그려줍니다.

보안 전문가에게: "이 AI 는 어떤 공격에 가장 취약한가?"를 미리 알 수 있어, 방어 시스템을 강화할 수 있습니다.
개발자에게: "어떤 부분이 너무 의존적인가?"를 알 수 있어, 더 균형 잡힌 AI 를 만들 수 있습니다.
일반인에게: AI 가 내리는 결정이 얼마나 신뢰할 수 있는지, 그리고 그 결정이 어떻게 내려졌는지 이해하는 데 도움을 줍니다.

요약

SYNAPSE는 AI 의 뇌를 해부하지 않고도, 일시적으로 특정 부위를 마비시켜보면서 AI 의 강점과 약점을 찾아내는 정밀 검사 도구입니다. 이를 통해 우리는 AI 가 정보를 어떻게 저장하는지, 그리고 어떤 상황에서 쉽게 무너질 수 있는지 이해하게 되었습니다. 이는 AI 가 더 투명하고, 신뢰할 수 있으며, 안전한 미래를 만드는 첫걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

최근 인공지능 (AI), 특히 트랜스포머 (Transformer) 기반 모델은 데이터 분석 및 예측 분야에서 뛰어난 성능을 보이지만, 그 불투명성 (Black-box nature) 으로 인해 신뢰성과 견고성 (Robustness) 에 대한 우려가 제기되고 있습니다. 의료, 사이버 보안과 같은 민감한 분야에서는 잘못된 결정이나 공격의 결과가 치명적일 수 있으므로, 모델의 내부 작동 원리를 이해하고 견고성을 평가하는 것이 필수적입니다.

기존의 뉴런 수준의 해석 가능성 (Interpretability) 연구는 다음과 같은 한계가 있었습니다:

기술적 한계: 대부분 기술적 설명 (Descriptive) 에 그치거나, 특정 작업 (Task-dependent) 에 종속적이며, 재학습 (Retraining) 을 필요로 함.
범용성 부재: 다양한 아키텍처나 도메인 간에 내부 견고성을 체계적으로 평가하고 비교할 수 있는 재사용 가능한 도구가 부족함.
간섭의 부재: 개별 뉴런을 제어하거나 조작하여 모델의 인과적 역할을 정량화하는 체계적인 프레임워크가 부재함.

이러한 한계를 극복하기 위해, 본 논문은 SYNAPSE라는 새로운 프레임워크를 제안합니다.

2. 제안 방법론: SYNAPSE Framework

SYNAPSE 는 재학습이 필요 없는 (Training-free), 비파괴적 (Non-destructive) 인 프레임워크로, 트랜스포머 모델의 내부 행동을 체계적으로 분석하고 스트레스 테스트 (Stress-testing) 합니다.

핵심 구성 요소 및 프로세스

설명 가능성 블록 (Explainability Block):
- 모델의 각 레이어에서 [CLS] 토큰의 활성화 값을 추출합니다. (전체 시퀀스를 요약하는 표현을 사용하여 계산 효율성을 극대화).
- 추출된 활성화 값 위에 가벼운 선형 프로브 (Linear Probe) 를 훈련시켜 뉴런의 중요도를 정량화합니다.
분석 블록 (Analysis Block):
- 프로브의 가중치를 기반으로 전역 (Global) 및 클래스별 (Per-class) 뉴런 순위 매기기를 수행합니다.
- 상위 $k$ 개의 뉴런을 식별하여 특정 레이어와 차원으로 매핑합니다.
적대적 블록 (Adversarial Block):
- PyTorch Forward Hooks를 사용하여 추론 (Inference) 시점에 뉴런을 조작합니다. 모델 가중치는 변경되지 않으며, 실행 후 원래 상태로 복구됩니다.
- 조작 전략:
  - Global Undirected Silencing: 전역적으로 중요한 뉴런을 무작위로 침묵시킴 (전체 민감도 측정).
  - Global Directed Silencing: 특정 라벨에 가장 큰 영향을 미치는 뉴런을 침묵시킴 (라벨 인식 취약성 측정).
  - Per-Class Silencing: 특정 클래스와 관련된 뉴런만 침묵시킴 (클래스별 취약성 측정).
  - 기타 공격: 로그이트 (Logit) 편향, 가우시안 노이즈 주입, 가중치 공간 조작 등.

3. 주요 기여 (Key Contributions)

SYNAPSE 프레임워크: 레이어별 [CLS] 활성화 추출, 경량 선형 프로브 훈련, Forward Hook 을 통한 타겟팅 개입을 자동화하는 모듈형 파이프라인을 제시했습니다.
인과적 침묵 전략 (Causal Silencing Strategies): 뉴런 수준의 견고성 평가를 위해 전역 무방향, 전역 지향, 클래스별 침묵이라는 세 가지 상보적인 개입 메커니즘을 도입했습니다.
효율적이고 아키텍처에 구애받지 않는 분석: [CLS] 표현을 활용하여 계산 효율성을 높였으며, 다양한 트랜스포머 인코더에 적용 가능합니다.
크로스 도메인 실험 검증: 악성코드 탐지 (시스템 호출 시퀀스) 와 감정 분류 (자연어) 라는 이질적인 두 도메인에서 뉴런 수준의 행동을 직접 비교할 수 있는 통일된 평가 프로토콜을 수립했습니다.

4. 실험 결과 (Results)

실험은 MalwSpecSys(악성코드 탐지) 와 GoEmotions(감정 분류) 데이터셋을 기반으로 BERT, BigBird, DistilBERT, Longformer 등 다양한 모델에서 수행되었습니다.

내부 표현의 분산 특성:
- 모든 실험에서 작업 관련 정보는 소수의 고립된 뉴런이 아닌, 광범위하고 중첩된 뉴런 집합에 분산되어 있는 것으로 나타났습니다.
- 이로 인해 뉴런을 제거할 때 성능이 급격히 떨어지기보다는 점진적으로 저하되는 경향을 보였습니다.
클래스별 비대칭성 (Class-wise Asymmetry):
- 모델마다 특정 클래스에 대한 뉴런 의존도가 크게 달랐습니다. 예를 들어, BERT 는 특정 클래스 (Class-3) 에 강건하지만 다른 클래스 (Class-0, 2) 에서는 매우 취약했습니다.
- 일부 모델 (예: BigBird) 은 전체적인 정확도는 높았으나, 특정 뉴런을 침묵시켰을 때 특정 클래스에서 성능이 0 에 수렴하는 취약한 구조를 보였습니다.
공격 유형별 비교:
- 무작위 노이즈: 모델에 따라 내구성이 크게 달랐으며, BigBird 는 노이즈에 매우 강건한 반면 Longformer 는 임계점을 넘으면 급격히 붕괴했습니다.
- 가중치/로그이트 조작: 뉴런 침묵보다 작은 구조적 조작 (가중치 공간 조작 등) 이 예측을 더 효과적으로 전환시킬 수 있음을 보였습니다. 특히 BigBird 는 가중치 조작에 가장 취약한 반면, Longformer 는 가장 견고했습니다.
- FGSM (경사 기반 공격): 입력 임베딩에 대한 FGSM 공격은 모델에 따라 다른 민감도를 보였으며, Longformer 와 BigBird 가 상대적으로 더 견고한 것으로 나타났습니다.

5. 의의 및 결론 (Significance & Conclusion)

해석 가능성과 견고성의 통합: SYNAPSE 는 설명 가능성 (Explainability) 을 단순한 설명 도구가 아닌, 강건성, 민감도, 클래스 조건부 행동을 정량화하는 실험적 메커니즘으로 재정의했습니다.
실용적 도구: 재학습 없이 모델의 내부 취약점과 안정성 패턴을 식별할 수 있어, 사이버 보안 및 NLP 분야에서 모델 감사 (Model Auditing) 및 취약점 분석에 유용한 도구로 작용합니다.
미래 방향: 본 연구는 트랜스포머 모델이 정보를 분산 저장한다는 사실을 확인했으나, 특정 결정 경로는 좁은 활성화 패턴에 의존하여 취약할 수 있음을 지적했습니다. 향후 연구에서는 이러한 뉴런 수준의 취약점을 탐지하거나 완화하는 방어 메커니즘 개발, 멀티모달 환경 적용, 분산 학습 환경에서의 견고성 분석 등으로 확장될 수 있습니다.

요약하자면, SYNAPSE 는 블랙박스 모델의 내부 뉴런을 체계적으로 매핑하고 조작하여, 모델이 어떻게 결정을 내리는지, 그리고 어떤 상황에서 취약해지는지를 재현 가능하고 비교 가능한 방식으로 규명하는 혁신적인 프레임워크입니다.