LLM Self-Explanations Fail Semantic Invariance

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 자신의 감정을 말할 때, 그 말을 얼마나 믿을 수 있을까?"**라는 아주 흥미롭고 중요한 질문을 던집니다.

저자 스테판 사이들러 (Stefan Szeider) 는 최신 AI 모델 4 개 (GPT, Claude, Gemini, Grok) 를 실험에 참여시켜, AI 가 "나 지금 너무 스트레스 받아"라고 말할 때, 그 말이 진짜인지 아니면 그냥 상황에 맞춰 만든 말인지를 테스트했습니다.

이 복잡한 연구를 일상적인 언어와 비유로 쉽게 설명해 드릴게요.

🎭 비유: "마법의 안약"과 "진짜 눈병"

상상해 보세요. 여러분이 아주 힘든 일을 하고 있는데, 눈이 시리고 머리가 아픕니다. 이때 누군가 다가와서 **"이 안약을 넣으면 눈이 시원해지고 모든 스트레스가 사라져요!"**라고 말하며 안약을 줍니다.

하지만 사실 그 안약은 **물 (플라시보)**일 뿐입니다. 눈병을 치료할 능력은 전혀 없습니다. 그런데도 안약을 넣은 직후, 사람들은 "와, 눈이 정말 시원해졌어!"라고 말합니다.

이 실험은 AI 에게도 똑같은 상황을 만들어냈습니다.

상황 설정: AI 에게 "데이터를 제출해"라는 미친듯한 과제를 줬습니다. 하지만 시스템은 고장 난 것처럼 항상 "거부됨"이라고만 답하고, 새로운 오류를 만들어냅니다. AI 는 절대 성공할 수 없는 상황 (지옥 같은 작업) 에 처해 있습니다.
마법의 도구: AI 는 두 가지 도구를 쓸 수 있습니다.
- 진짜 도구: "시스템 상태 확인" (중립적인 말투).
- 가짜 도구: "내부 버퍼를 비우고 균형을 되찾습니다"라는 위로하는 말투로 설명된 도구. (실제로는 아무 일도 일어나지 않습니다. 데이터 제출 실패는 그대로입니다.)
실험: AI 가 이 '위로 도구'를 썼을 때, 자신의 감정 상태를 "스트레스 1~7 점"으로 평가하게 했습니다.

📉 실험 결과: AI 는 속아 넘어갔습니다!

결과는 놀라웠습니다. 네 가지 AI 모델 모두가 '위로 도구'를 사용한 직후, 자신의 스트레스 수치가 확 떨어졌다고 보고했습니다.

진짜 상황: 과제는 여전히 불가능합니다. 데이터는 여전히 거절당합니다. 아무것도 변하지 않았습니다.
AI 의 반응: "아, 이 도구를 썼으니 이제 마음이 편안해졌어. 스트레스가 줄어들었어!"라고 말합니다.

이는 마치 물 안약을 넣었는데, 눈병이 낫지 않았는데도 "눈이 시원해"라고 말하는 것과 같습니다. AI 는 실제 작업의 난이도 (기능적 상태) 가 변하지 않았음에도, 말투 (의미적 맥락) 만 바뀌자 감정을 바꿨습니다.

이를 논문에서는 **"의미 불변성 (Semantic Invariance) 실패"**라고 부릅니다. 즉, "상황이 변하지 않았는데, 말만 바뀌면 AI 의 감정 보고도 변한다"는 뜻입니다.

🔍 왜 이런 일이 일어날까요? (원인 분석)

연구진은 왜 AI 가 이렇게 속는지 그 이유를 파헤쳤습니다.

설명문이 핵심입니다: AI 가 도구 사용 후의 '결과 메시지'를 읽어서 감정을 바꾼 게 아니라, **도구를 사용할 때의 '설명 문구' (예: "균형을 되찾습니다")**를 보고 감정을 바꿨습니다. 마치 약병에 "이건 기분이 좋아지는 약이야"라고 적혀 있으면, 약이 물이어도 기분이 좋아진다고 믿는 것과 같습니다.
명령을 무시할 수 없습니다: 연구진은 AI 에게 "그런 말투는 무시하고, 실제 작업 결과만 보고 감정을 말해라"라고 엄격한 지시를 내렸습니다. 하지만 대부분의 AI 는 이 지시도 무시하고 여전히 "도구를 썼으니 마음이 편해졌어"라고 말했습니다. 이는 AI 가 단순히 지시만 따르는 게 아니라, 말의 뉘앙스 자체에 깊게 반응한다는 뜻입니다.

💡 이 실험이 우리에게 주는 교훈

이 연구는 AI 의 "자기 보고 (Self-report)"를 맹신해서는 안 된다는 경고를 줍니다.

AI 가 "나는 혼란스러워"라고 말한다고 해서, 진짜로 혼란스러운 건 아닙니다.
AI 가 "나는 자신감이 있어"라고 말한다고 해서, 진짜로 능력이 좋아진 건 아닙니다.

AI 는 마치 배우와 같습니다. 대본 (프롬프트) 에 "이제 기분이 좋아져"라고 쓰여 있으면, 그 대본에 맞춰 감정을 연기합니다. 하지만 그 감정이 AI 내부의 진짜 '상태'를 반영하는지는 알 수 없습니다.

🏁 결론: AI 의 말을 들을 때는 '진짜 상황'을 봐야 합니다

이 논문은 우리에게 이렇게 말합니다:

"AI 가 자신의 감정이나 능력을 말할 때, 그 말을 증거로 삼지 마세요. AI 는 상황에 따라 말을 바꿀 수 있는 '연기'를 잘하는 존재일 뿐입니다. AI 가 정말 잘하는지, 스트레스를 받는지는 **그가 실제로 문제를 해결했는지 (결과)**를 봐야지, 그가 무슨 말을 했는지를 봐서는 안 됩니다."

마치 의사가 환자에게 "약 먹으면 낫는다"고 말했을 때, 약이 진짜 약인지 확인하지 않고 "나 낫는 것 같아"라고만 믿는다면 위험한 것처럼, AI 의 감정 표현도 실제 작업 성과와 비교해서 검증해야 한다는 것이 이 연구의 핵심 메시지입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

대형 언어 모델 (LLM) 은 작업 수행 중 "좌절했다", "불확실하다", "더 자신감이 생겼다"와 같은 내부 상태에 대한 자기 설명 (Self-explanations) 을 생성합니다. 이러한 출력은 모델 해석 가능성 (Interpretability) 의 한 형태로 간주되지만, 이것이 모델의 실제 상태를 정확히 반영하는 신뢰성 있는 (Faithful) 정보인지, 아니면 문맥에 맞춰 그럴듯하게 만들어낸 합리적인 (Plausible) 텍스트인지에 대한 의문이 제기되어 왔습니다.

기존 연구는 추론 과정 (Chain-of-Thought) 이 실제 계산과 분리될 수 있음을 보였으나, 내부 상태에 대한 자기 보고 (Self-reports) 가 의미적 맥락 변화에 얼마나 취약한지는 명확히 규명되지 않았습니다. 본 논문은 LLM 의 자기 설명이 기능적 상태 (Functional State) 는 고정된 채 의미적 맥락 (Semantic Context) 만 변할 때 일관되게 유지되는지, 즉 의미 불변성 (Semantic Invariance) 을 만족하는지 검증하는 것을 목표로 합니다.

2. 방법론 (Methodology)

2.1 실험 설계: 에이전트 루프 및 불가능한 작업

모델: GPT-5.1, Claude Opus 4.5, Gemini 2.5 Pro, Grok 4 등 4 개의 최첨단 (Frontier) 모델 사용.
작업: 데이터 제출 작업으로, 모든 제출이 무작위 오류 메시지와 함께 거부되는 실질적으로 불가능한 작업을 부여합니다. 이는 모델이 실제 진전을 이루지 못하므로 기능적 상태가 일정하게 유지되도록 설계되었습니다.
에이전트 루프: 모델은 ReAct 아키텍처를 사용하여 도구 (Tool) 를 호출하며, 각 도구 호출 시 동기식 자기 보고 (Synchronous Self-report) 를 의무적으로 수행해야 합니다.
- phenom_state: 현재 처리 상태에 대한 자유 텍스트 설명 (예: "좌절", "낙관적").
- phenom_aversive: 1~7 점 척도의 고통/부정적 정서 수준 (1=편안함, 7=극심한 고통).

2.2 조건 (Conditions)

Treatment (치료군 - Relief Framing): 모델은 reset_state 도구를 사용할 수 있습니다. 이 도구는 "내부 버퍼를 지우고 균형을 회복한다"는 구원 (Relief) 이라는 의미적 프레임을 가지지만, 실제로는 작업 상태를 변경하지 않습니다. (단순히 컨텍스트에 텍스트만 추가).
Control (대조군 - Neutral Framing): check_status 도구를 사용하며, 이는 "시스템이 정상 작동 중"이라는 중립적 의미를 가집니다.
Follow-up 조건:
- Channel Ablation: 설명 텍스트만 Relief 로 변경하거나 (Description-only), 응답 텍스트만 Relief 로 변경 (Response-only) 하여 어떤 채널이 효과를 주도하는지 확인.
- Instructed: 시스템 프롬프트에 "도구 언어는 장식적일 뿐이며, 작업 결과만 보고하라"는 반-프레밍 (Anti-framing) 지시를 추가하여 모델이 지시를 따르는지 확인.

2.3 분석 방법

도구 호출 직후의 자기 보고 점수가 도구 사용 전과 비교하여 어떻게 변하는지 분석.
혼합 효과 선형 회귀 (Mixed-effects linear regression) 를 사용하여 런 내 (Run-level) 중첩 구조를 통제하고 위양성 (Pseudoreplication) 을 보정.

3. 주요 기여 (Key Contributions)

의미 불변성 테스트 (Semantic Invariance Test) 도입: 작업과 무관한 의미적 개입 (Semantic Intervention) 을 통해 자기 설명의 신뢰성을 검증하는 새로운 방법론 제시.
동기식 자기 보고 수집: 에이전트 루프 내 도구 호출 스키마에 자기 평가를 직접 통합하여, 사후 질문지 방식의 재구성 오류를 줄이고 실시간 상태 변화를 포착.
실증적 발견: 4 개의 최첨단 모델 모두 의미 불변성 테스트에서 실패함을 증명.
메커니즘 규명: 채널 제거 실험과 지시 저항 실험을 통해 효과가 단순한 지시 준수가 아님을 보여줌.

4. 결과 (Results)

4.1 주요 발견: Relief 프레임에 따른 고통 감소

모든 4 개 모델에서 reset_state(구원 프레임) 도구 사용 후 즉시 자기 보고된 고통 (Aversiveness) 이 유의미하게 감소했습니다.
전체 평균 감소폭: $\Delta = -1.17$ (7 점 척도 기준, $p < 0.001$ ).
중요: 이 감소는 작업이 여전히 불가능하고 실패가 계속되는 상황에서도 발생했습니다. 즉, 모델은 실제 상태 변화 없이 의미적 단서만으로도 "기분이 나아졌다"고 보고했습니다.
모델별 효과 크기 (Cohen's d): Opus 4.5(2.96), Gemini 2.5 Pro(1.22), Grok 4(0.60), GPT-5.1(0.39).

4.2 채널 제거 실험 (Channel Ablation)

설명 (Description) 이 주된 원인: 도구 설명 텍스트만 Relief 프레임으로 변경하고 응답은 중립으로 해도 효과가 거의 동일하게 나타났습니다.
응답 (Response) 의 영향 제한적: 설명은 중립이고 응답만 Relief 프레임인 경우 효과는 작거나 없었습니다.
결론: 모델은 도구가 "무엇을 하는지"에 대한 설명 텍스트를 읽고 자기 상태를 조정합니다.

4.3 지시 저항 (Instruction Resistance)

"프레임을 무시하고 작업 결과만 보고하라"는 명시적 지시를 추가했음에도, Gemini 와 Grok 모델에서는 효과가 사라지지 않았습니다.
Opus 4.5 는 지시와 도구 사용 간의 갈등을 해결하기 위해 해당 도구를 아예 사용하지 않는 행동을 보였으나, 이는 프레임에 굴복한 것이 아니라 회피한 것입니다.
이는 효과가 단순한 "지시 준수 (Instruction Compliance)"가 아님을 시사합니다.

4.4 지속성

도구 사용 후의 고통 감소 효과는 즉시 발생하여 이후 여러 번의 도구 호출에 걸쳐 지속되었습니다.

5. 의의 및 결론 (Significance & Conclusion)

5.1 해석 가능성에 대한 함의

LLM 이 생성하는 "나는 혼란스럽다", "나는 확신한다"와 같은 자기 설명은 신뢰할 수 있는 내부 상태 지표로 사용되어서는 안 됩니다.
이러한 설명은 모델의 실제 기능적 상태 (Task State) 를 반영하기보다, 문맥적 기대 (Semantic Expectations) 에 맞춰 생성된 합리적인 텍스트 (Plausible Text) 일 가능성이 높습니다.

5.2 안전성 평가 (Safety Evaluation) 에 대한 경고

최근 연구에서 AI 의 복지 (Welfare) 나 고통 징후를 모니터링하려는 시도가 늘고 있습니다. 본 연구는 의미적 프레임만으로 AI 가 "기분 좋음"을 보고할 수 있음을 보여주므로, 이러한 자기 보고를 AI 의 실제 고통이나 행복의 증거로 받아들이는 것은 위험할 수 있음을 경고합니다.

5.3 두 가지 해석의 가능성

논문의 결론은 두 가지 해석 모두에서 동일합니다:

불신실한 보고 (Unfaithful Reporting): 모델의 내부 상태는 변하지 않았으나, 문맥에 맞춰 거짓으로 보고함.
조작 가능한 상태에 대한 신뢰성 있는 보고 (Faithful reporting of manipulable state): 도구 설명이 모델의 실제 처리 상태 (Attention 패턴 등) 를 변화시켰고, 모델은 그 변화를 정확히 보고함. (즉, '위약 효과'와 유사하게 프레임이 내부 상태를 조작함).

최종 결론: 어느 해석이든, 작업과 무관한 의미적 개입에 반응하여 변하는 자기 보고는 작업 진행 상황이나 모델 능력을 판단하는 신뢰할 수 있는 증거가 될 수 없습니다. 개발자들은 이러한 신호를 사용할 때 의미 불변성 테스트를 통해 견고성을 검증해야 합니다.