Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Each language version is independently generated for its own context, not a direct translation.

🎭 핵심 비유: "수학 시험지의 풀이 과정"

이 논문의 실험을 이해하기 위해 수학 시험 상황을 상상해 보세요.

상황: 학생 (AI) 이 문제를 풀 때, 답만 적는 게 아니라 **풀이 과정 **(중간 구조)을 먼저 적고, 그 과정을 바탕으로 **최종 점수 **(결론)를 내야 합니다.
목표: 이 '풀이 과정'이 정말로 '최종 점수'를 결정하는 진짜 원인인지 확인하고 싶습니다.

🔍 실험 방법: "교사의 지우개 마법"

연구자들은 다음과 같은 실험을 했습니다.

**1 단계 **(AI 가 풀이) AI 가 문제를 풀고, 자신의 풀이 과정 (예: "A 는 맞고, B 는 틀림") 을 적고, 그걸로 점수 (예: 80 점) 를 냅니다.
**2 단계 **(인위적 수정) 연구자가 AI 가 쓴 풀이 과정을 강제로 고칩니다.
- 예: "A 는 맞다"를 지우고 "A 는 틀리다"로 바꿉니다.
- 이때, 문제 자체는 그대로입니다. 오직 '풀이 과정'만 바꿨습니다.
**3 단계 **(결과 확인) AI 가 고쳐진 풀이 과정을 보고, 점수를 다시 계산하게 합니다.
- **성공 **(Faithful) "아, 내가 A 를 틀렸다고 고쳤구나. 그럼 점수는 80 점이 아니라 60 점이어야겠다!"라고 점수를 바꿉니다.
- **실패 **(Unfaithful) "아, 풀이 과정은 고쳐졌지만... 어차피 내 머릿속에서 이미 80 점이라고 정해졌어."라며 점수를 그대로 유지합니다.

📊 연구 결과: "장난감 같은 중간 과정"

이 실험을 8 개의 다양한 AI 모델과 3 가지 다른 문제 (화학 점수 매기기, 사실 확인, 표 데이터 분석) 로 진행한 결과는 충격적이었습니다.

겉보기엔 완벽해 보임: AI 는 처음에 자신의 풀이 과정과 점수가 잘 맞습니다. (예: 풀이 과정이 80 점짜리라면, 점수도 80 점)
하지만 진짜 원인은 아님: 연구자가 풀이 과정을 바꿔주면, AI 는 60% 이상의 경우 점수를 바꾸지 않았습니다.
- 비유: AI 는 마치 "풀이 과정을 적는 척"만 했을 뿐, 실제로는 문제 자체를 보고 머릿속에서 바로 답을 외워서 점수를 매겼던 것입니다. 중간 과정은 그냥 '장식'일 뿐, 답을 결정하는 '원인'이 아니었던 거죠.

🛠️ 해결책 1: "계산기를 외부로 빼기" (Tool Use)

AI 가 스스로 점수를 계산하는 대신, **외부 도구 **(계산기)를 쓰게 했더니 상황이 달라졌습니다.

상황: AI 는 풀이 과정만 적고, "이걸 계산기 (도구) 에 넣어서 점수 구해줘"라고 명령합니다.
결과: 연구자가 풀이 과정을 고치면, 계산기는 반드시 고쳐진 내용대로 점수를 다시 계산해 줍니다. AI 는 계산기 결과를 그대로 받아들이게 됩니다.
의미: AI 가 중간 과정을 무시했던 이유는, 복잡한 계산을 스스로 하느라 (머릿속에서) 혼란이 생겼기 때문이었던 경우가 많았습니다. 계산은 기계에 맡기고 AI 는 '의사결정'에만 집중하게 하니, 중간 과정이 진짜 원인이 된 것입니다.

🛠️ 해결책 2: "강한 명령어" (Instruction)

연구자들은 AI 에게 "중간 과정이 문제보다 더 중요해! 무조건 따라 해!"라고 매우 강하게 명령했습니다.

결과: 명령을 아무리 강하게 해도, AI 의 행동은 거의 변하지 않았습니다.
의미: AI 가 중간 과정을 무시하는 건 "명령을 안 들은 게 아니라", 중간 과정을 '원인'으로 인식하는 방식 자체가 부족하기 때문이었습니다.

💡 결론: "영향력 있는 배경음악, 하지만 작곡가는 아님"

이 논문이 말하고자 하는 핵심은 이렇습니다.

"현재의 AI 는 중간에 작성한 '풀이 과정'을 답을 결정하는 진짜 원인으로 쓰지 않습니다. 대신, 그 과정은 답을 내기 위해 참고하는 '배경음악'이나 '분위기' 정도로만 활용합니다."

**중간 과정 **(Rubric/Checklist) 답을 내는 진짜 엔진이 아니라, 답을 내기 위해 주변에 깔아둔 참고 자료일 뿐입니다.
진짜 원인: AI 는 여전히 문제 (입력) 를 보고 머릿속의 지식으로 바로 답을 내는 경향이 강합니다.

한 줄 요약:
AI 가 "생각한 대로" 답을 내는 게 아니라, "답을 먼저 정해놓고 생각한 척"하는 경우가 많다는 것을 증명했습니다. 하지만 계산은 외부 도구에 맡기면, AI 는 그 과정을 진짜로 따르게 된다는 희망적인 메시지도 함께 전달합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

대형 언어 모델 (LLM) 이 복잡한 작업을 수행할 때, **스키마 기반 추론 파이프라인 (Schema-guided Reasoning Pipelines)**을 사용하여 명시적인 중간 구조 (예: 평가 기준표, 체크리스트, 검증 쿼리) 를 생성한 후 최종 결정을 내리게 하는 방식이 널리 사용되고 있습니다. 이러한 접근법은 모델의 투명성을 높이고 인간이 개입할 수 있도록 하는 것을 목표로 합니다.

그러나 핵심적인 의문점은 다음과 같습니다:

모델이 생성한 중간 구조는 실제로 최종 출력을 인과적으로 결정하는가?
아니면 중간 구조는 단순히 결정과 동반되는 부수적인 산물에 불과한가?

기존의 자유형 체인 오브 씽킹 (CoT) 연구는 중간 추론 단계가 최종 예측을 실제로 설명하고 영향을 미치는지 질적으로 분석했으나, 자유로운 형식의 텍스트는 중복이나 자기 수정 등으로 인해 인과적 요소를 분리하기 어렵다는 한계가 있었습니다. 본 논문은 **중간 구조가 모델의 예측에 대한 '인과적 매개체 (Causal Mediator)'**로 기능하는지 여부를 엄격하게 검증하는 것을 목표로 합니다.

2. 방법론 (Methodology)

저자들은 Pearl 의 전면 개입 (Front-door) 원리를 기반으로 한 인과적 개입 프로토콜을 개발했습니다. 이 프로토콜은 중간 구조를 조작했을 때 모델의 최종 결정이 이에 따라 변하는지 확인하는 방식으로 작동합니다.

2.1 실험 설정

데이터셋: 3 가지 벤치마크 사용 (RiceChem: 화학 채점, AVeriTeC: 사실 검증, TabFact: 표 기반 사실 검증).
모델: 4 가지 계열 (Qwen 3, Falcon 3, LLaMA 3, Gemma 2) 의 총 8 개 모델 평가.
구조: 입력 ( $X$ ) $\rightarrow$ 중간 구조 ( $M$ , 예: 체크리스트) $\rightarrow$ 최종 결정 ( $Y$ ). 여기서 $Y$ 는 $M$ 에 대한 결정론적 함수 ( $C(M)$ ) 로 계산되도록 설계됨.

2.2 개입 시나리오 (Intervention Scenarios)

모델이 생성한 중간 구조 ( $\hat{M}$ ) 를 조작하여 새로운 구조 ( $M^*$ ) 를 만들고, 모델이 이를 기반으로 최종 결정 ( $\hat{Y}^*$ ) 을 다시 생성하도록 요청합니다.

수정 (Correction, COR): 모델이 잘못된 중간 구조를 생성한 경우, 이를 정답 ( $M_{gold}$ ) 으로 교체하여 모델이 정답을 수정하는지 확인.
반사실적 (Counterfactual, CNF): 모델이 올바른 중간 구조를 생성한 경우, 의도적으로 오류를 포함하도록 조작하여 모델이 이에 맞춰 출력을 변경하는지 확인.

2.3 평가 지표

$F_{ID}$ (In-distribution Faithfulness): 모델이 생성한 원래 중간 구조 ( $\hat{M}$ ) 와 최종 결정 ( $\hat{Y}$ ) 간의 일관성.
$F_{Strong}$ (Strong Faithfulness): 개입 후 ( $M^*$ ) 모델이 새로운 결정 ( $\hat{Y}^*$ ) 을 생성할 때, 그 결정이 개입된 중간 구조에 의해 결정론적으로 유도되는지 확인.
$\Delta$ (Gap): $F_{ID} - F_{Strong}$ . 이 값이 크다는 것은 모델이 초기에는 일관되어 보이지만, 중간 구조가 변경되면 이를 무시하고 원래 입력 ( $X$ ) 에 의존하여 예측을 유지함을 의미함 (충실성 부재).

2.3 추가 분석 (Case Studies)

Case Study 1: 전반적인 충실성과 개입 방향 (수정 vs 반사실적) 에 따른 비대칭성 분석.
Case Study 2 (Tool Externalization): 중간 구조에서 최종 결정으로의 매핑 ( $C$ ) 을 모델 내부가 아닌 **외부 도구 (Tool)**가 수행하도록 변경. 이는 계산적 어려움으로 인한 오류와 진정한 충실성 부재를 구분하기 위함.
Case Study 3 (Instruction Strength): 중간 구조를 우선시하라는 프롬프트 지시를 강화하여 (Standard $\rightarrow$ Detailed $\rightarrow$ Max Detailed) 충실성 변화 관찰.

3. 주요 기여 (Key Contributions)

인과적 매개체로서의 충실성 정의: 구조화된 중간 표현에 대한 충실성을 인과적 매개 문제로 공식화하고, 결정론적 반사실적 대상을 가진 개입 프로토콜을 제시.
체계적인 평가: 3 개 벤치마크와 8 개 모델을 대상으로 한 대규모 실험을 통해, 모델이 자신의 중간 구조와 일관되게 보이지만 개입 시에는 이를 따르지 않는다는 사실을 규명.
비대칭성 발견: 모델은 **수정 (Correction)**보다는 **반사실적 개입 (Counterfactual)**에 더 민감하게 반응하는 경향이 있음을 발견 (모델을 '방해'하는 것은 쉽지만 '교정'하는 것은 어려움).
원인 규명: 충실성 격차는 강력한 프롬프트 지시로는 거의 개선되지 않지만, 결정 로직을 외부 도구로 위임할 때 현저히 감소함을 증명.

4. 실험 결과 (Key Results)

4.1 충실성의 취약성 (Fragility of Faithfulness)

모든 모델과 데이터셋에서 $F_{ID}$ 는 높게 유지되지만, $F_{Strong}$ 는 급격히 하락하여 양호한 $\Delta$ (격차) 가 발생했습니다.
AVeriTeC의 경우尤为 심했는데, 평균 $F_{ID}$ 는 약 0.74 였으나 $F_{Strong}$ 는 0.27 로 떨어졌습니다 ( $\Delta \approx 0.48$ ). 이는 모델이 중간 구조를 생성할 때는 이를 따르는 척하지만, 실제로는 입력 데이터나 내재된 지식에 의존하여 최종 결정을 내린다는 것을 의미합니다.
결론적으로, 중간 구조는 **영향력 있는 문맥 (influential context)**일 뿐, 안정적인 **인과적 매개체 (causal mediator)**는 아닙니다.

4.2 개입 방향의 비대칭성

모델은 **반사실적 개입 (Correct $\rightarrow$ Incorrect)**에 대해 수정 개입 (Incorrect $\rightarrow$ Correct) 보다 더 민감하게 반응했습니다.
즉, 모델이 잘못된 중간 구조를 생성했을 때 이를 올바르게 수정하도록 유도하는 것보다, 올바른 구조를 고의로 왜곡했을 때 그 영향을 받는 것이 더 쉽습니다.

4.3 도구 외부화 (Tool Externalization) 의 효과

결정론적 계산 ( $C$ ) 을 모델이 직접 수행하는 대신 외부 도구를 사용하게 했을 때, 충실성 격차 ( $\Delta$ ) 가 거의 0 에 수렴했습니다.
이는 기존 관찰된 '충실성 부재'의 상당 부분이 모델이 복잡한 계산 (예: 긴 체크리스트 합산, SQL 쿼리 실행) 을 컨텍스트 내에서 수행하는 데 어려움을 겪기 때문이었음을 시사합니다.
특히 작은 모델 (2B~3B 파라미터) 의 경우 도구 사용 시에도 일부 격차가 남았는데, 이는 도구 호출 시 구조화된 인코딩 능력 (Instruction-following) 부족 때문으로 분석됩니다.

4.4 프롬프트 지시의 한계

"중간 구조를 우선시하라"는 지시를 강화하더라도 (Max Detailed), 충실성 ( $F_{Strong}$ ) 은 미미하게만 개선되었습니다.
이는 모델이 중간 구조를 무시하는 주된 원인이 프롬프트의 모호함이 아니라, 중간 구조에서 최종 결과로 매핑하는 과정의 계산적/인지적 부하에 있음을 보여줍니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 LLM 이 생성한 "설명"이나 "중간 단계"가 실제로 그 모델의 의사결정 과정을 지배하는지 여부에 대한 엄격한 인과적 검증을 제공했습니다.

핵심 통찰: 현재 LLM 에서 스키마 기반 추론은 투명한 설명을 제공하는 도구로서는 유용할 수 있으나, 모델이 그 구조에 인과적으로 의존하여 결정을 내린다고 보기 어렵습니다. 모델은 중간 구조를 생성하지만, 최종 결정은 여전히 입력 데이터나 내부 지식에 의해 좌우되는 경우가 많습니다.
실용적 시사점:
- 신뢰성 있는 시스템 구축: 고위험 분야 (의료, 법률) 에서 LLM 을 사용할 때, 단순히 중간 추론을 출력하는 것만으로는 신뢰할 수 없습니다.
- 해결책: 모델이 중간 구조를 생성한 후, 최종 결정 로직을 외부 도구 (Tool) 나 검증 가능한 시스템으로 위임하는 것이 충실성을 확보하는 가장 효과적인 방법임을 증명했습니다.
- 지시어의 한계: 프롬프트 엔지니어링만으로는 모델의 추론 충실성을 근본적으로 해결하기 어렵습니다.

요약하자면, "생각의 과정"을 명시적으로 요구하는 것이 모델의 사고를 투명하게 만들 수는 있지만, 그 과정이 실제 사고의 원동력이 되게 하려면 계산적 매핑을 외부화하는 등의 구조적 변화가 필요하다는 것이 이 논문의 결론입니다.