Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 왜 그런 결정을 내렸는지 설명할 때, 그 설명이 얼마나 일관성 있는가?"**에 대한 흥미로운 연구를 담고 있습니다.

마치 **"동일한 레시피로 요리를 해도, 요리사마다 (혹은 재료를 섞는 순서마다) 설명하는 맛이 달라질 수 있다"**는 사실을 발견한 이야기라고 생각하시면 됩니다.

이 논문의 핵심 내용을 쉽게 풀어서 설명해 드릴게요.

🍳 핵심 비유: "동일한 레시피, 다른 요리사"

우리가 AI(특히 '트랜스포머'라는 최신 모델) 를 훈련시킬 때, 컴퓨터는 무작위적인 숫자 (랜덤 시드) 를 사용합니다. 이는 마치 동일한 레시피와 재료를 가지고 요리할 때, 요리사가 재료를 섞는 순서나 불 조절의 미세한 차이를 만드는 것과 같습니다.

이전 연구들은 "아무리 똑같은 레시피라도, 이 무작위성 때문에 AI 가 내린 **결정 이유 (설명)**가 완전히 달라질 수 있다"고 경고했습니다.

이 논문은 그다음 단계로 **"그럼, 어떤 상황에서 설명이 가장 많이 흔들리는 걸까?"**를 세 가지 상황으로 나누어 실험해 보았습니다.

1. 문장 순서 바꾸기 (문맥의 영향)

실험: "존이 학교에 갔다"라는 문장과 "학교, 존이, 갔다"처럼 단어 순서를 뒤죽박죽으로 섞은 문장을 비교했습니다.
결과: 단어 순서가 정돈된 문장은 AI 가 "존"이라는 단어를 보고 "아, 이 사람이 주인공이구나"라고 일관되게 설명했습니다. 하지만 단어가 섞인 문장은 AI 가 설명할 때 조금 더 혼란스러워하며, 그 이유를 설명하는 방식이 조금씩 달라졌습니다.
비유: 정돈된 책상에서는 물건을 찾기 쉽지만, 산만한 책상에서는 물건을 찾을 때마다 손이 가는 곳이 조금씩 달라지는 것과 같습니다.
결론: 문장 구조가 복잡해지거나 뒤섞이면, AI 의 설명은 조금 더 불안정해집니다.

2. 눈에 띄는 단어가 있냐 없냐 (클래스의 영향)

실험:
- A 그룹: "존"이라는 이름이 있으면 'A', 없으면 'B'로 분류하는 쉬운 문제.
- B 그룹: "존"이 있으면 'A'지만, "존"이 없어도 다른 무작위 단어가 들어간 'B'로 분류하는 문제.
결과: "존"이라는 **뚜렷한 단서 (마커)**가 있는 경우는 AI 가 설명을 매우 일관되게 했습니다. 하지만 뚜렷한 단서가 없고, "존이 없으면 B"라는 부정적인 조건으로 판단해야 하는 경우는 AI 가 설명할 때 매우 불안정해졌습니다.
비유: 명찰을 단 사람을 찾는 것은 쉽지만, **"명찰을 안 한 사람"**을 찾아야 할 때는 AI 가 "아, 저 사람은 명찰이 없네"라고 설명할 때 그 이유를 매번 다르게 말해버립니다.
결론: AI 가 판단할 때 뚜렷한 단서가 없으면, 설명의 일관성이 크게 떨어집니다.

3. 문제의 난이도 (작업의 영향)

실험:
- 쉬운 작업: 천체물리학 논문과 수학 논문을 구분하는 것 (단어가 매우 다름).
- 어려운 작업: 뉴스 기사에서 '사실'과 '의견'을 구분하는 것 (단어가 비슷하고 뉘앙스를 봐야 함).
결과: 천체물리학 논문 구분처럼 단어가 확실히 다른 쉬운 문제는 AI 설명이 매우 안정적이었습니다. 반면, '사실 vs 의견'처럼 미묘한 뉘앙스를 파악해야 하는 어려운 문제는 AI 설명이 매우 불안정했습니다.
비유: 빨간 공과 파란 공을 구분하는 것은 누구나 똑같이 설명할 수 있지만, 진한 분홍색과 연한 분홍색을 구분할 때는 사람마다 (혹은 AI 의 훈련 방식마다) "이건 더 붉다", "저건 더 분홍이다"라고 설명이 달라집니다.
결론: 문제가 복잡하고 미묘할수록, AI 의 설명은 훈련 과정의 작은 변화에 더 민감하게 반응합니다.

📊 요약: 설명의 흔들림 정도 (불안정성)

연구진은 이 세 가지 요소를 비교했을 때 다음과 같은 순서로 설명의 불안정성이 커진다는 것을 발견했습니다.

가장 안정적 (흔들림 적음): 문장 구조 (단순한 문맥)
중간: 분류할 대상 (뚜렷한 단서가 있느냐 없느냐)
가장 불안정 (흔들림 큼): 작업의 난이도 (복잡한 뉘앙스 파악)

💡 우리가 무엇을 배울 수 있을까요?

이 연구는 우리에게 중요한 메시지를 줍니다.

"AI 가 내린 설명을 맹신하면 안 됩니다. 특히 AI 가 복잡한 문제를 풀거나, 뚜렷한 단서가 없는 상황에서 설명을 할 때는, 그 설명이 '운'에 의해 결정되었을 가능성도 있습니다."

따라서 앞으로 AI 를 개발하거나 사용할 때는, **"이 설명이 정말 AI 의 진짜 생각일까, 아니면 훈련할 때의 무작위성 때문에 나온 우연일까?"**를 의심해 보는 새로운 기준이 필요하다는 것입니다.

한 줄 요약:
AI 의 설명은 문제가 복잡하고 단서가 희미할수록, 마치 무작위로 섞인 주사위처럼 예측 불가능하게 변할 수 있으니, 그 설명을 볼 때는 항상 "이게 유일한 답일까?"라고 한번 더 생각해보아야 합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

트랜스포머 (Transformer) 기반 모델은 자연어 처리 (NLP) 의 핵심 기술로 자리 잡았으나, 그 결정 과정을 설명하는 것은 여전히 어려운 과제입니다. 최근 연구에 따르면, 동일한 데이터로 훈련된 동일한 모델이라도 훈련 과정에서의 무작위성 (randomness, 예: 시드 값) 이 다르면 매우 다른 설명 (explanation) 이 도출될 수 있음이 밝혀졌습니다.

기존 연구는 주로 단일 인스턴스 (single instance) 에 초점을 맞추어 분석했으나, 본 논문은 **훈련 무작위성에 대한 설명의 민감도 (sensitivity)**가 다음과 같은 세 가지 자연스러운 의존성에 따라 어떻게 달라지는지 조사하는 데 목적이 있습니다.

문맥 (Context): 구문론적 (syntactic) 구조의 변화.
클래스 (Class): 학습하려는 클래스의 특성 (구별 가능한 마커의 유무).
작업 (Task): 수행하는 태스크의 복잡도 및 특성.

2. 방법론 (Methodology)

실험 설계 및 모델

모델: 영어 텍스트에는 RoBERTa-base, 프랑스어에는 CamemBERT-base 사용.
훈련 설정: 동일한 하이퍼파라미터 (학습률 $2 \times 10^{-5}$, 배치 크기 16, 에포크 1) 를 유지하되, **200 개의 서로 다른 무작위 시드 (random seed)**를 사용하여 200 개의 모델을 미세 조정 (fine-tuning) 함.
- 시드는 데이터 순서, 드롭아웃 (dropout) 에 의한 비활성화 뉴런, 분류 헤드의 초기화를 제어.
모델 선정: 테스트 세트에서 정확도 차이가 통계적으로 유의미하지 않은 $m$ 개의 동등한 (equivalent) 모델을 선정.
호환 텍스트 (Compatible Texts): 모든 모델이 동일한 레이블을 예측하는 테스트 데이터의 텍스트를 선정.

설명 방법 및 평가 지표

설명 기법: Layer-wise Relevance Propagation (LRP) 사용.
- 결정론적 (deterministic) 방법이며, 타당성 (plausibility) 과 충실도 (faithfulness) 사이의 균형을 잘 이룬다고 평가됨.
- 토큰 단위 설명 값을 생성하여 $n$ 개의 단어로 이루어진 텍스트에 대해 $m$ 개의 벡터 획득.
평가 지표: Mean Correlation With Mean Explanation (MCWME).
- $m$ 개의 설명 중 하나를 제외한 나머지 설명들의 평균과 해당 설명 간의 상관관계를 계산하여 설명의 안정성 (stability) 을 측정.
- Leave-one-out 교차검증 (LOOCV) 방식을 사용하여 정확도를 높임.

3. 주요 실험 및 결과 (Key Experiments & Results)

3.1. 구문적 문맥의 영향 (Impact of Syntactic Context)

실험: 10 단어로 구성된 문장 10,000 개를 두 클래스로 나눕니다. 한 클래스는 "John"이, 다른 클래스는 "James"가 포함됩니다. 두 번째 데이터셋은 첫 번째 데이터셋의 단어 순서를 무작위로 섞은 (shuffled) 형태입니다.
결과:
- 단어 순서가 정렬된 경우 (비섞임): 설명의 안정성 (MCWME) 이 거의 완벽에 가까웠으며, LRP 가 과업의 구별 단어 (discriminant word) 에만 높은 관련성 값을 부여함을 확인.
- 단어 순서가 섞인 경우: 설명 안정성이 유의미하게 감소 (무작위성에 대한 민감도 증가).
- 원인: 트랜스포머 모델이 단어 간의 미세한 관계를 학습하지만, LRP 의 어텐션 메커니즘이 이를 0 으로 설정해야 할 관계까지 보고하여 발생하는 것으로 추정됨.

3.2. 클래스 의존성: 구별 단어의 부재 (Class Dependency)

실험: "John"이 포함된 클래스와 "James" 대신 무작위 단어가 들어간 (또는 이름이 없는) 클래스를 비교. 후자의 경우 레이블이 "John"의 유무에만 의해 결정됨.
결과:
- 구별 가능한 마커 (discriminant marker) 가 없는 클래스에서 MCWME 값이 유의미하게 낮음.
- 이는 설명의 민감도가 클래스 특성에 따라 달라질 수 있음을 시사.
- 무작위 설명 (MCWME $\approx$ 0) 과는 달리, 구별 마커가 없는 경우에도 문장 시작/끝 및 교체된 단어 주변에서 평균적으로 높은 관련성을 보이는 경향이 관찰됨 (평균 설명이 더 평탄해지더라도).

3.3. 태스크 의존성 (Task Dependency)

실험: 두 가지 실제 태스크 비교.
1. ArXiv: 천체물리학 (Astro-ph.GA) vs 수학 (Math.NT) 논문 초록 분류 (평균 148 토큰).
2. InfOpinion: 뉴스 기사의 정보 (Information) vs 의견 (Opinion) 분류 (평균 338 토큰).
결과:
- ArXiv 데이터셋 (클래스 간 어휘 구별력이 높음) 보다 InfOpinion 데이터셋 (관계 이해 필요) 에서 설명 안정성이 더 낮음.
- 모델의 정확도 (ArXiv: 99.8%, InfOpinion: 96%) 와 설명 안정성 사이에 상관관계가 관찰됨.
- 결론: 태스크가 복잡하고 클래스 간 구별이 명확하지 않을수록 훈련 무작위성에 대한 설명의 민감도가 커짐.

4. 핵심 기여 (Key Contributions)

민감도 요인 규명: 훈련 무작위성에 대한 설명의 민감도가 문맥, 클래스, 태스크라는 세 가지 요소에 의해 통계적으로 유의미하게 영향을 받음을 입증.
영향도 순위: 세 요인 중 태스크 (Task) 의 영향이 가장 크고, 그다음 클래스 (Class), 마지막으로 **문맥 (Context)**의 영향이 가장 작음.
새로운 분석 관점: 단일 인스턴스 분석을 넘어, 설명의 **분포 (distribution)**를 분석하여 모델의 신뢰성을 평가하는 새로운 프레임워크 제안.

5. 의의 및 결론 (Significance & Conclusion)

해석 가능성 프레임워크의 확장: 대규모 언어 모델 (LLM) 의 설명이 훈련 무작위성에 얼마나 민감한지 특성화하는 것은 기존 설명 가능성 (Explainability) 프레임워크에 유용한 추가 요소가 될 수 있음.
실제적 함의:
- 타당성 (Plausibility): 단일 설명이 아닌 설명의 분포를 해석하는 것은 더 많은 정보 처리를 요구함.
- 충실도 (Faithfulness): 더 복잡한 설명 방법이 훈련 무작위성에 대한 의존성을 줄일 수 있는지 여부는 중요한 열린 질문임.
제언: 정확도 손실이 없다면 단순한 모델을 사용하는 것이 설명의 안정성을 높이는 데 유리할 수 있음.

이 논문은 LLM 의 설명이 단순히 모델의 내부 논리뿐만 아니라, 훈련 과정의 미세한 변화와 과업의 특성에 따라 얼마나 불안정할 수 있는지를 체계적으로 보여주었으며, 신뢰할 수 있는 AI 설명 시스템을 구축하기 위해 이러한 변수들을 고려해야 함을 강조합니다.