Argumentation for Explainable and Globally Contestable Decision Support with LLMs

Each language version is independently generated for its own context, not a direct translation.

🎭 핵심 비유: "AI 의 결정은 마법일까, 논리일까?"

지금까지 우리가 사용해 온 AI 는 마치 예측 불가능한 마법사와 같았습니다.

문제점: "왜 이 환자에게 이 약을 처방했나요?"라고 물으면, AI 는 "그냥 느낌이 그랬어요"라고 대답하거나, 사실과 다른 이유를 지어냅니다 (할루시네이션). 또한, 한 번 잘못된 결론을 내리면 그 이유를 고치기 어렵고, 같은 실수를 반복합니다.
기존 해결책: 일부 연구는 AI 에게 "생각하는 과정 (논리)"을 말하게 했지만, 이는 AI 가 실제로 생각한 게 아니라 나중에 만들어낸 '변명'에 불과한 경우가 많았습니다.

이 논문은 **"AI 를 마법사가 아닌, 논리적인 변호사"**로 바꾸는 방법을 제시합니다.

🏗️ ArgEval 이란 무엇인가요?

ArgEval은 AI 가 결정을 내릴 때, 단순히 "정답"을 외우는 게 아니라 **논리적 싸움 (논증)**을 통해 결론을 내리는 시스템입니다.

1. '전체 규칙'을 먼저 정합니다 (글로벌 경쟁력)

기존 방식은 환자 A 가 오면 A 에게 맞는 이유를 그 자리에서 즉석으로 찾아냈습니다. 하지만 ArgEval 은 먼저 **전체적인 규칙책 (Ontology)**을 만듭니다.

비유: 요리사가 손님이 오기 전에 "소고기 요리는 어떻게 해야 맛있는지", "채식주의자는 무엇을 먹어야 하는지"에 대한 완성된 레시피북을 먼저 만들어 놓는 것과 같습니다.
이 레시피북에는 각 치료법 (수술, 방사선, 약물 등) 에 대해 **"어떤 경우에 좋고, 어떤 경우에는 위험한지"**에 대한 논리적 근거들이 미리 정리되어 있습니다.

2. 환자를 만나면 '레시피'를 적용합니다 (구체적 추론)

실제 환자가 오면, AI 는 레시피북에서 해당 환자의 조건 (나이, 병의 위치, 건강 상태 등) 에 맞는 논리 구조를 가져옵니다.

비유: 환자가 "85 세고 뇌의 깊은 곳에 종양이 있다"고 하면, AI 는 레시피북에서 "수술은 위험하다"는 논리와 "방사선 치료가 적합하다"는 논리를 꺼내와서 비교합니다.
이때, 수술을 반대하는 논리와 수술을 지지하는 논리가 서로 싸우게 됩니다. AI 는 이 싸움의 결과를 점수로 계산해 가장 합리적인 답을 내놓습니다.

3. 가장 중요한 특징: "전 세계적으로 수정 가능하다" (글로벌 이의 제기)

이것이 이 논문의 가장 혁신적인 부분입니다.

기존 방식: 만약 AI 가 환자 A 에게 잘못된 수술을 추천했다면, 우리는 "아, 이 환자한테는 수술 안 하는 게 좋구나"라고 그 환자한테만 수정할 수 있었습니다. 하지만 다음에 환자 B 가 와도 AI 는 같은 실수를 반복할 수 있습니다.
ArgEval 방식: 우리는 **레시피북 자체 (전체 규칙)**를 수정할 수 있습니다.
- "수술은 65 세 이상 환자에게는 절대 추천하지 않는다"는 규칙을 레시피북에 추가하거나 수정하면, 앞으로 들어오는 모든 환자에게 이 규칙이 적용되어 똑같은 실수가 반복되지 않습니다.
- 비유: 요리사가 "소고기는 65 세 이상에게는 안 먹인다"는 규칙을 레시피북에 적어두면, 앞으로 들어오는 모든 손님에게 그 규칙이 적용되는 것과 같습니다.

🧪 실제 실험: 뇌종양 치료 추천

이 연구는 뇌종양 (교모세포종) 치료법을 추천하는 데 이 방식을 적용해 보았습니다.

결과:
1. 설명 가능성: AI 가 왜 그 치료를 추천했는지, 어떤 논리 (수술의 위험성 vs 효과) 를 따졌는지 정확하게 보여줄 수 있습니다.
2. 비용 절감: 매번 처음부터 논리를 짜는 게 아니라 미리 만든 레시피북을 활용하므로, 컴퓨터 연산 비용이 기존 방식보다 훨씬 적게 들었습니다.
3. 성능 향상: 한 번 잘못된 추천을 발견하고 레시피북을 수정하자, 단 한 번의 수정으로 전체 환자의 추천 정확도가 크게 향상되었습니다.

💡 요약: 왜 이 방식이 좋은가요?

투명함: AI 가 "왜?"라고 물으면, "수술은 뇌 깊숙한 곳에 종양이 있을 때 위험하기 때문입니다"라고 논리적으로 설명해 줍니다.
수정 가능: 실수가 발견되면, 한 번만 고쳐도 모든 미래의 결정이 올바르게 바뀝니다. (기존 방식은 매번 고쳐야 함)
신뢰: 의사나 환자가 AI 의 결정을 믿고 따를 수 있게 됩니다.

한 줄 요약:

"ArgEval 은 AI 가 매번 막연한 감으로 결정을 내리는 게 아니라, 미리 정해진 논리적 규칙책 (레시피북) 을 바탕으로 싸움을 시켜 최선의 답을 찾게 하고, 그 규칙책은 우리가 언제든 수정할 수 있게 만들어 AI 를 더 안전하고 신뢰할 수 있게 만든 기술입니다."

Argumentation for Explainable and Globally Contestable Decision Support with LLMs

🎭 핵심 비유: "AI 의 결정은 마법일까, 논리일까?"

🏗️ ArgEval 이란 무엇인가요?

1. '전체 규칙'을 먼저 정합니다 (글로벌 경쟁력)

2. 환자를 만나면 '레시피'를 적용합니다 (구체적 추론)

3. 가장 중요한 특징: "전 세계적으로 수정 가능하다" (글로벌 이의 제기)

🧪 실제 실험: 뇌종양 치료 추천

💡 요약: 왜 이 방식이 좋은가요?

논문 요약: LLM 을 활용한 설명 가능하고 전역적으로 이의 제기 가능한 의사결정 지원 프레임워크 (ArgEval)

1. 문제 정의 (Problem)

2. 방법론: ArgEval 프레임워크 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

Argumentation for Explainable and Globally Contestable Decision Support with LLMs

🎭 핵심 비유: "AI 의 결정은 마법일까, 논리일까?"

🏗️ ArgEval 이란 무엇인가요?

1. '전체 규칙'을 먼저 정합니다 (글로벌 경쟁력)

2. 환자를 만나면 '레시피'를 적용합니다 (구체적 추론)

3. 가장 중요한 특징: "전 세계적으로 수정 가능하다" (글로벌 이의 제기)

🧪 실제 실험: 뇌종양 치료 추천

💡 요약: 왜 이 방식이 좋은가요?

논문 요약: LLM 을 활용한 설명 가능하고 전역적으로 이의 제기 가능한 의사결정 지원 프레임워크 (ArgEval)

1. 문제 정의 (Problem)

2. 방법론: ArgEval 프레임워크 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers