Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

이 논문은 금융 서비스용 도구 활용 LLM 에이전트의 규제 감사 재현성을 보장하기 위해 결정론적 일관성과 정확도를 독립적으로 측정하는 '결정론-신뢰성 보장 하네스 (DFAH)' 프레임워크와 관련 벤치마크를 제안하며, 두 지표가 서로 상관관계가 없으므로 모두 독립적으로 평가해야 함을 실증합니다.

Raffi Khatchadourian

게시일 Tue, 10 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📄 금융 AI 의 '재현성'을 보장하는 새로운 나침반: DFAH

이 논문은 **"은행이나 금융 기관에서 AI(대형 언어 모델) 가 결정을 내릴 때, 같은 상황을 다시 만들면 항상 같은 답을 내놓을까?"**라는 매우 중요한 질문에서 시작합니다.

금융 분야에서는 AI 가 "이 거래는 의심스럽다"라고 판단했다면, 나중에 감사관이 "왜 그렇게 판단했지?"라고 물었을 때 동일한 입력값으로 똑같은 결론과 이유를 다시 보여줄 수 있어야 합니다. 하지만 현재 많은 AI 는 같은 질문을 해도 매번 조금씩 다른 답을 내놓거나, 심지어 근거 없는 이야기를 지어내기도 합니다.

저자 (IBM 의 Raffi Khatchadourian) 는 이 문제를 해결하기 위해 **DFAH(Determinism-Faithfulness Assurance Harness)**라는 새로운 평가 도구를 개발했습니다. 이를 쉽게 이해할 수 있도록 몇 가지 비유로 설명해 드리겠습니다.


1. 핵심 문제: "똑같은 요리, 다른 맛" vs "매번 다른 메뉴"

금융 AI 는 요리사라고 상상해 보세요.

  • 확정성 (Determinism): 같은 재료 (입력값) 를 주고 같은 레시피 (프롬프트) 를 주면, 요리사가 매번 똑같은 맛의 요리를 만들어내는 능력입니다.
  • 정확성 (Accuracy): 그 요리가 **맛있고 영양가 있는지 (올바른 결정)**입니다.

이 연구의 놀라운 발견은 다음과 같습니다:

"요리사가 매번 똑같은 맛을 낸다고 해서 (확정성 높음), 그 요리가 맛있는 건 아닙니다. 반대로, 아주 맛있는 요리를 만들 수 있다고 해서 (정확성 높음), 매번 같은 맛을 내는 것도 아닙니다."

즉, 확정성과 정확성은 서로 상관관계가 없습니다. 둘 다 따로따로 측정해야만 합니다.

2. DFAH: AI 의 '검증 도구'

DFAH 는 이 두 가지를 동시에 점검하는 정밀한 검사대입니다.

  • 재현성 검사 (Determinism): "어제 이 거래를 걸었을 때 '신고'라고 했다면, 오늘 같은 조건에서 다시 걸어도 '신고'라고 할까?"
  • 신뢰성 검사 (Faithfulness): "그 '신고'라는 결론을 내린 이유가, 실제로 찾아낸 증거 (문서, 데이터) 에 기반한 건가, 아니면 AI 가 임의로 지어낸 이야기인가?"

3. 실험 결과: 작은 로봇 vs 거인 로봇

연구진은 7 가지 다른 AI 모델 (작은 모델부터 거대 모델까지) 을 금융 업무 (거래 의심 신고, 포트폴리오 검토 등) 에 투입해 4,700 번 이상 테스트했습니다. 결과는 흥미로웠습니다.

🤖 작은 로봇 (7B~20B 파라미터 모델)

  • 특징: 매우 단순하고 경직된 패턴을 따릅니다.
  • 장점: 같은 입력을 주면 100% 똑같은 답을 줍니다. (확정성 100%)
  • 단점: 너무 단순해서 정답을 맞추는 비율은 낮습니다 (약 20~40%). 마치 "모든 의심 거래는 무조건 신고해라"라고만 외우는 학생 같습니다.
  • 비유: 자동판매기입니다. 버튼을 누르면 항상 똑같은 캔이 나옵니다. 하지만 그 캔이 내가 원하는 맛인지, 혹은 상한 건지는 모릅니다.

🦸 거인 로봇 (최신 최상위 모델, Claude, Gemini 등)

  • 특징: 복잡한 추론을 합니다.
  • 장점: 정답을 맞출 확률이 더 높습니다 (약 50~70%).
  • 단점: 같은 문제를 풀더라도 **매번 다른 생각의 길 (경로)**을 택합니다. 때로는 '신고'라고 하고, 때로는 '조사'라고 합니다. (확정성 50~90% 수준)
  • 비유: 천재 요리사입니다. 같은 재료를 주더라도 오늘과 내일의 기분이나 생각에 따라 레시피를 조금씩 다르게 변형합니다. 맛은 더 좋을 수 있지만, 매번 같은 요리를 기대하기는 어렵습니다.

결론: "완벽한 확정성"과 "높은 정확성"을 동시에 가진 AI 는 아직 존재하지 않았습니다.

4. 왜 금융에서는 '확정성'이 더 중요할까?

일반적인 질문에는 "정답"이 중요하지만, 금융 규제 (감사) 상황에서는 **"재현성"**이 생명입니다.

  • 상황: 감찰관이 "어제 이 거래를 왜 차단했어?"라고 물었습니다.
  • 실패한 AI: "음... 어제 생각해보니 차단해야 할 것 같았어요. (하지만 오늘 다시 해보면 통과시킬 수도 있어요)" -> 이건 감사를 통과할 수 없습니다.
  • 성공한 AI: "어제 A 문서를 보고 B 기준을 적용해서 차단했습니다. 오늘 다시 A 문서를 넣고 B 기준을 적용하면, 100% 똑같은 이유로 차단됩니다."

이 연구는 **"정답을 잘 맞추는 AI 보다, 같은 조건에서 항상 같은 결론을 내는 AI 가 규제 환경에서는 더 안전하다"**는 점을 강조합니다.

5. 현실적인 조언: 어떤 AI 를 써야 할까?

이 논문의 결론은 금융 기관을 위한 모델 선택 가이드를 제시합니다.

모델 유형 추천 용도 비유
작은 모델 (Tier 1) 규제 감사, 거래 신고, 자동화 업무
(정답보다 '일관성'이 중요한 곳)
자동화된 공장 로봇
매번 똑같은 부품을 만들어내야 하는 곳. 실수는 적지만 창의성은 없습니다.
거대 모델 (Frontier) 연구, 조언, 복잡한 분석
(사람의 검토가 가능한 곳)
유능한 컨설턴트
매우 똑똑하지만, 매번 다른 관점을 제시할 수 있으므로 사람이 최종 확인해야 합니다.

📝 한 줄 요약

"금융 AI 에게는 '매번 똑같은 답을 주는 기계'가 '매번 멋진 답을 주는 천재'보다 더 안전합니다. DFAH 는 이 두 가지 능력을 따로따로 측정하여, 금융 기관이 AI 를 안전하게 쓸 수 있도록 돕는 나침반입니다."

이 연구는 AI 가 금융 시스템에 들어갈 때, 단순히 "똑똑한가?"만 묻지 말고 **"믿을 수 있고, 다시 검증 가능한가?"**를 먼저 확인해야 한다고 경고하고 있습니다.