Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

이 논문은 트랜스포머 모델의 설명이 학습 무작위성에 민감하게 반응하는 정도가 문맥, 클래스, 작업에 따라 통계적으로 유의미하게 달라지며, 그 영향력이 작업에서 가장 크고 문맥에서 가장 작음을 규명합니다.

Romain Loncour, Jérémie Bogaert, François-Xavier Standaert

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 왜 그런 결정을 내렸는지 설명할 때, 그 설명이 얼마나 일관성 있는가?"**에 대한 흥미로운 연구를 담고 있습니다.

마치 **"동일한 레시피로 요리를 해도, 요리사마다 (혹은 재료를 섞는 순서마다) 설명하는 맛이 달라질 수 있다"**는 사실을 발견한 이야기라고 생각하시면 됩니다.

이 논문의 핵심 내용을 쉽게 풀어서 설명해 드릴게요.


🍳 핵심 비유: "동일한 레시피, 다른 요리사"

우리가 AI(특히 '트랜스포머'라는 최신 모델) 를 훈련시킬 때, 컴퓨터는 무작위적인 숫자 (랜덤 시드) 를 사용합니다. 이는 마치 동일한 레시피와 재료를 가지고 요리할 때, 요리사가 재료를 섞는 순서나 불 조절의 미세한 차이를 만드는 것과 같습니다.

이전 연구들은 "아무리 똑같은 레시피라도, 이 무작위성 때문에 AI 가 내린 **결정 이유 (설명)**가 완전히 달라질 수 있다"고 경고했습니다.

이 논문은 그다음 단계로 **"그럼, 어떤 상황에서 설명이 가장 많이 흔들리는 걸까?"**를 세 가지 상황으로 나누어 실험해 보았습니다.

1. 문장 순서 바꾸기 (문맥의 영향)

  • 실험: "존이 학교에 갔다"라는 문장과 "학교, 존이, 갔다"처럼 단어 순서를 뒤죽박죽으로 섞은 문장을 비교했습니다.
  • 결과: 단어 순서가 정돈된 문장은 AI 가 "존"이라는 단어를 보고 "아, 이 사람이 주인공이구나"라고 일관되게 설명했습니다. 하지만 단어가 섞인 문장은 AI 가 설명할 때 조금 더 혼란스러워하며, 그 이유를 설명하는 방식이 조금씩 달라졌습니다.
  • 비유: 정돈된 책상에서는 물건을 찾기 쉽지만, 산만한 책상에서는 물건을 찾을 때마다 손이 가는 곳이 조금씩 달라지는 것과 같습니다.
  • 결론: 문장 구조가 복잡해지거나 뒤섞이면, AI 의 설명은 조금 더 불안정해집니다.

2. 눈에 띄는 단어가 있냐 없냐 (클래스의 영향)

  • 실험:
    • A 그룹: "존"이라는 이름이 있으면 'A', 없으면 'B'로 분류하는 쉬운 문제.
    • B 그룹: "존"이 있으면 'A'지만, "존"이 없어도 다른 무작위 단어가 들어간 'B'로 분류하는 문제.
  • 결과: "존"이라는 **뚜렷한 단서 (마커)**가 있는 경우는 AI 가 설명을 매우 일관되게 했습니다. 하지만 뚜렷한 단서가 없고, "존이 없으면 B"라는 부정적인 조건으로 판단해야 하는 경우는 AI 가 설명할 때 매우 불안정해졌습니다.
  • 비유: 명찰을 단 사람을 찾는 것은 쉽지만, **"명찰을 안 한 사람"**을 찾아야 할 때는 AI 가 "아, 저 사람은 명찰이 없네"라고 설명할 때 그 이유를 매번 다르게 말해버립니다.
  • 결론: AI 가 판단할 때 뚜렷한 단서가 없으면, 설명의 일관성이 크게 떨어집니다.

3. 문제의 난이도 (작업의 영향)

  • 실험:
    • 쉬운 작업: 천체물리학 논문과 수학 논문을 구분하는 것 (단어가 매우 다름).
    • 어려운 작업: 뉴스 기사에서 '사실'과 '의견'을 구분하는 것 (단어가 비슷하고 뉘앙스를 봐야 함).
  • 결과: 천체물리학 논문 구분처럼 단어가 확실히 다른 쉬운 문제는 AI 설명이 매우 안정적이었습니다. 반면, '사실 vs 의견'처럼 미묘한 뉘앙스를 파악해야 하는 어려운 문제는 AI 설명이 매우 불안정했습니다.
  • 비유: 빨간 공과 파란 공을 구분하는 것은 누구나 똑같이 설명할 수 있지만, 진한 분홍색과 연한 분홍색을 구분할 때는 사람마다 (혹은 AI 의 훈련 방식마다) "이건 더 붉다", "저건 더 분홍이다"라고 설명이 달라집니다.
  • 결론: 문제가 복잡하고 미묘할수록, AI 의 설명은 훈련 과정의 작은 변화에 더 민감하게 반응합니다.

📊 요약: 설명의 흔들림 정도 (불안정성)

연구진은 이 세 가지 요소를 비교했을 때 다음과 같은 순서로 설명의 불안정성이 커진다는 것을 발견했습니다.

  1. 가장 안정적 (흔들림 적음): 문장 구조 (단순한 문맥)
  2. 중간: 분류할 대상 (뚜렷한 단서가 있느냐 없느냐)
  3. 가장 불안정 (흔들림 큼): 작업의 난이도 (복잡한 뉘앙스 파악)

💡 우리가 무엇을 배울 수 있을까요?

이 연구는 우리에게 중요한 메시지를 줍니다.

"AI 가 내린 설명을 맹신하면 안 됩니다. 특히 AI 가 복잡한 문제를 풀거나, 뚜렷한 단서가 없는 상황에서 설명을 할 때는, 그 설명이 '운'에 의해 결정되었을 가능성도 있습니다."

따라서 앞으로 AI 를 개발하거나 사용할 때는, **"이 설명이 정말 AI 의 진짜 생각일까, 아니면 훈련할 때의 무작위성 때문에 나온 우연일까?"**를 의심해 보는 새로운 기준이 필요하다는 것입니다.

한 줄 요약:
AI 의 설명은 문제가 복잡하고 단서가 희미할수록, 마치 무작위로 섞인 주사위처럼 예측 불가능하게 변할 수 있으니, 그 설명을 볼 때는 항상 "이게 유일한 답일까?"라고 한번 더 생각해보아야 합니다.