From Features to Actions: Explainability in Traditional and Agentic AI Systems

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "단일 사진" vs "드라마 시리즈"

이 논문의 핵심은 기존의 AI 설명 방식과 새로운 AI 설명 방식의 차이를 **'단일 사진'**과 **'드라마 시리즈'**에 비유할 수 있습니다.

1. 기존 AI (정적 예측): "단일 사진"

과거의 AI 는 주로 한 장의 사진을 보고 "이건 고양이입니다"라고 말해주는 역할이었습니다.

기존 설명 방식 (Attribution): "왜 고양이라고 했지? 눈이 커서, 귀가 뾰족해서, 털이 보송해서..."라고 사진 속의 특정 부분을 가리키며 설명합니다.
문제점: 이 방식은 사진 한 장에는 잘 통하지만, 시간이 흐르며 여러 단계를 거쳐 일을 처리하는 AI에게는 통하지 않습니다.

2. 새로운 AI (에이전트 시스템): "드라마 시리즈"

최근의 AI(에이전트) 는 단순히 답을 주는 게 아니라, 여행을 계획하고, 비행기 표를 끊고, 호텔을 예약하는 등 여러 단계의 행동을 합니다. 이는 한 장의 사진이 아니라 수십 회 분량의 드라마와 같습니다.

새로운 문제: 드라마가 망쳤을 때, "왜 망쳤을까?"라고 묻는다면 단순히 "주인공이 눈이 커서 망쳤다"라고 말하면 안 됩니다.
- 1 화에서 계획을 잘못 세웠나요?
- 5 화에서 비행기 표를 잘못 끊었나요?
- 10 화에서 기억을 잃어버려서 (상태 불일치) 같은 실수를 반복했나요?

🔍 연구의 주요 발견: "무엇이 문제였는지" vs "어디서 망쳤는지"

연구팀은 두 가지 다른 설명 방식을 비교해 보았습니다.

1. 실패한 시도: "사진 설명법"을 드라마에 적용하기

기존에 쓰이던 SHAP나 LIME 같은 도구들은 "어떤 입력이 결과에 영향을 줬는지"를 통계적으로 분석합니다.

결과: 정적인 사진 분석에서는 아주 잘 작동했습니다 (일관성 86%). 하지만 드라마 (에이전트) 에 적용하자, **"어디서, 왜 실패했는지"**를 구체적으로 찾아내지 못했습니다.
비유: 드라마가 망친 이유를 분석할 때, "주인공의 옷 색깔이 실패와 관련이 있다"는 통계적 상관관계만 알려줄 뿐, **"3 화에서 주인공이 지도를 잘못 보고 길을 잃었다"**는 구체적인 원인은 찾아내지 못했습니다.

2. 성공한 시도: "드라마 대본 분석" (Trace-based Diagnostics)

연구팀은 대신 **에이전트의 행동 기록 (Trace)**을 하나하나 살펴보는 방식을 썼습니다. 마치 드라마 제작진이 촬영 대본과 편집 로그를 검토하듯이요.

방법: 에이전트가 한 행동 하나하나를 **'규칙 (Rubric)'**에 맞춰 체크했습니다.
- "목표와 일치했나?"
- "도구를 올바르게 썼나?"
- 가장 중요: "기억 (상태) 을 일관되게 유지했나?"
발견:
- 비행기 예약 에이전트 (TAU-bench): 실패의 70% 는 '기억 상실' 때문이었습니다. 처음에 "A 호텔"이라고 기억했다가, 중간에 "B 호텔"로 기억이 바뀌거나, 혹은 "A 호텔"이라고 생각했는데 실제 시스템에는 "B 호텔"이 남아있는 등 상태가 꼬여서 결국 실패했습니다. (실패 확률을 49% 나 떨어뜨림)
- 웹 서핑 에이전트 (AssistantBench): 실패의 원인은 한 번의 치명적인 실수였습니다. "올바른 버튼을 누르지 못했다"는 한 번의 실수가 전체 드라마를 망쳤습니다.

💡 결론: "MEP(최소 설명 패키지)"의 필요성

이 논문은 앞으로 AI 를 설명할 때, 단순히 **"왜 이 답이 나왔나요?"**라고 묻는 것을 넘어, **"이 에이전트가 어떤 과정을 거쳐, 어디서 꼬였나요?"**라고 질문해야 한다고 주장합니다.

저희는 이를 **MEP (Minimal Explanation Packet, 최소 설명 패키지)**라고 불렀습니다.

기존: "이건 고양이예요." (답만 줌)
새로운 MEP: "이건 고양이예요. (답) + 왜? 눈이 커서 (이유) + 하지만, 만약 에이전트라면: 1 단계에서 고양이를 발견했고, 2 단계에서 먹이를 주려다 실패했는데, 그 이유는 3 단계에서 기억을 잃어버려서 고양이를 다른 동물로 착각했기 때문입니다."

🚀 요약 및 시사점

**과거의 설명 (Static XAI)**은 단순한 예측에는 좋지만, 복잡한 행동을 하는 AI 에겐 무용지물입니다.
에이전트 AI가 실패할 때는 보통 한 번의 큰 실수보다는 작은 실수가 쌓이거나 기억이 꼬이는 과정에서 발생합니다.
따라서 우리는 AI 의 **행동 기록 (Trace)**을 바탕으로 **"어디서, 어떻게, 왜 실패했는지"**를 진단할 수 있는 새로운 설명 체계가 필요합니다.

한 줄 요약:

"AI 가 실수했을 때, 단순히 '결과'를 탓하는 게 아니라, '그가 걸어온 길 (행동 기록)'을 따라가며 어디서 발을 헛디뎠는지 찾아내는 새로운 설명 방식이 필요합니다."

이 연구는 의료, 금융, 기업 자동화 등 중요한 일을 AI 에게 맡길 때, 그 AI 가 왜 실수했는지 정확히 파악하여 안전하고 신뢰할 수 있게 만드는 데 큰 기여를 할 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

기존 XAI 의 한계: 기존의 설명 가능한 AI (XAI) 연구는 주로 정적 (Static) 예측에 초점을 맞추고 있습니다. SHAP, LIME, 주시 맵 (Saliency maps) 등의 방법은 단일 입력 - 출력 매핑에 대한 사후 (post-hoc) 설명을 제공하지만, 고정된 결정 구조 내에서 작동합니다.
에이전트 AI 의 복잡성: 최근 대형 언어 모델 (LLM) 기반 에이전트 시스템은 단일 추론이 아닌, **관찰, 의사결정, 도구 호출 (tool invocation) 이 수반되는 다단계 궤적 (multi-step trajectories)**을 통해 행동합니다. 성공이나 실패는 단일 결과가 아니라 일련의 결정 시퀀스에 의해 결정됩니다.
핵심 문제: 정적 예측을 위해 설계된 설명 방법론 (특히 피처 기반 귀속 방법) 이 시간의 흐름에 따라 행동이 발현되는 에이전트 환경에서 어떻게 적용될 수 있는지, 그리고 에이전트의 실행 실패를 진단하는 데 얼마나 유용한지가 불분명합니다.

2. 방법론 (Methodology)

저자들은 정적 예측과 에이전트 행동 간의 격차를 해소하기 위해 다음과 같은 접근법을 취했습니다.

패러다임 구분 및 프레임워크 정립:
- 정적 (Static) vs. 에이전트 (Agentic) 구분: 정적 시스템은 $y=f(x)$ 의 단일 결정인 반면, 에이전트 시스템은 상태 ( $s_t$ ), 행동 ( $a_t$ ), 관찰 ( $o_t$ ) 로 구성된 궤적 $\tau$ 로 정의됩니다.
- 최소 설명 패킷 (MEP, Minimal Explanation Packet) 도입: 설명 아티팩트만 제공하는 것이 아니라, **1) 설명 아티팩트, 2) 연결된 증거 및 실행 컨텍스트 (실행 로그, 도구 호출 기록 등), 3) 검증 신호 (신뢰성 지표)**를 묶은 단위인 MEP 를 제안했습니다.
실험 설정:
- 정적 설정: 온라인 구직 공고 데이터셋 (IT vs 비 IT 분류) 을 사용하여 TF-IDF + 로지스틱 회귀, Text CNN 모델에 SHAP 및 LIME 을 적용했습니다.
- 에이전트 설정: TAU-bench Airline (항공사 예약) 과 AssistantBench (웹 기반 보조) 벤치마크에서 LLM 에이전트 (GPT-4.1, o4-mini 등) 의 실행을 분석했습니다.
- 평가 도구: 실행 로그 (Trace) 를 기반으로 **행동 규범 (Behavioral Rubrics)**을 적용하여 각 실행 라운드를 평가했습니다. 규범 항목에는 의도 정렬 (Intent Alignment), 계획 준수 (Plan Adherence), 도구 정확성 (Tool Correctness), 상태 일관성 (State Consistency), 오류 복구 (Error Recovery) 등이 포함됩니다.
- 교차 검증 실험: 에이전트 실행 궤적을 규범 기반의 이진 특징 벡터로 인코딩한 후, 이를 정적 분류 문제로 변환하여 SHAP 분석을 수행했습니다.

3. 주요 기여 (Key Contributions)

공식적 구분: 정적 예측기 (Static Predictors) 와 에이전트 시스템 간의 설명 가능성에 대한 명확한 개념적, 실증적 구분을 제시했습니다.
범주론 (Taxonomy) 제안: 설명 대상과 산출물을 피처 수준의 귀속 (Attribution) 에서 궤적 수준의 설명 (Trajectory-level accounts) 으로 확장하는 교차 패러다임 분류 체계를 제안했습니다.
실증적 비교: 정적 분류 작업과 에이전트 벤치마크 (TAU-bench, AssistantBench) 에서 **귀속 기반 설명 (Attribution-based)**과 **궤적 기반 진단 (Trace-based diagnostics)**을 비교 분석했습니다.

4. 주요 결과 (Key Results)

A. 정적 설정 (Static Settings)

SHAP 및 LIME 과 같은 귀속 기반 방법은 정적 분류 작업에서 안정적인 피처 순위를 제공했습니다 (Spearman $\rho$ = 0.86).
이는 단일 입력 - 출력 매핑에서 모델의 결정에 영향을 미치는 주요 요인을 파악하는 데 유효함을 확인했습니다.

B. 에이전트 설정 (Agentic Settings)

귀속 방법의 한계: 정적 설정에서 안정적이었던 귀속 방법들은 에이전트의 실행 단계별 실패를 국소화 (localize) 하거나, 특정 실패 시퀀스에서 어떤 제약이 위반되었는지 진단하는 데 신뢰할 수 없었습니다.
궤적 기반 규범 평가의 우위: 실행 로그에 기반한 규범 평가 (Rubric evaluation) 는 실패 원인을 명확히 식별했습니다.
- TAU-bench Airline: 상태 추적 일관성 (State Tracking Consistency) 위반이 실패와 가장 강력하게 연관되었습니다. 실패한 실행에서 상태 불일치가 발생할 확률은 성공한 실행보다 2.7 배 높았으며, 성공 확률을 49% 감소시켰습니다. 이는 에이전트의 계획과 메모리가 환경 상태와 점차 불일치하며 실패가 누적되는 "느린 실패 (slow failure)" 패턴을 보여줍니다.
- AssistantBench: 도구 선택 정확도 (Tool Choice Accuracy) 위반이 실패의 결정적 요인이었습니다. 이는 잘못된 도구 선택 한 번이 전체 작업을 붕괴시키는 "빠른 실패 (fast failure)" 패턴을 보입니다.

C. 교차 실험 (Bridging Experiment)

에이전트 궤적을 규범 기반 특징 벡터로 압축하여 SHAP 분석을 수행한 결과, 전역적인 중요도 순위는 복원할 수 있었습니다 (예: 의도 정렬, 상태 일관성이 주요 영향 요인).
그러나 이는 여전히 **상관관계 (Correlative)**에 그쳤으며, 특정 실행이 왜 실패했는지에 대한 **인과적 진단 (Causal diagnosis)**이나 구체적인 실행 단계의 문제점을 파악하는 데는 한계가 있었습니다.

5. 의의 및 결론 (Significance & Conclusion)

패러다임의 전환 필요성: 에이전트 AI 시스템의 설명 가능성은 단일 예측의 피처 중요도를 설명하는 것을 넘어, **궤적 수준의 의사결정 기록 (Trajectory-level decision accounts)**으로 전환되어야 합니다.
실용적 가치: 의료, 금융, 기업 자동화 등 안전이 중요한 분야에서 에이전트의 행동을 감사 (Audit) 하고 디버깅하기 위해서는 최종 결과뿐만 아니라 과정 (Process) 과 상태 변화 (State Evolution) 를 추적할 수 있는 설명이 필수적입니다.
미래 방향: 단순한 사후 설명을 넘어, 실행 컨텍스트와 검증 신호가 결합된 **MEP(최소 설명 패킷)**를 표준화하고, 반사실적 (Counterfactual) 분석 및 개입 기반 평가를 통해 에이전트 실패의 인과 관계를 규명하는 연구가 필요합니다.

요약하자면, 이 논문은 **"정적 AI 에 적용되던 설명 방법론은 다단계 에이전트 시스템의 복잡한 실패를 진단할 수 없으며, 실행 궤적 (Trace) 과 행동 규범 (Rubric) 을 기반으로 한 새로운 설명 프레임워크가 필요하다"**는 것을 실증적으로 입증했습니다.