Each language version is independently generated for its own context, not a direct translation.

📄 금융 AI 의 '재현성'을 보장하는 새로운 나침반: DFAH

이 논문은 **"은행이나 금융 기관에서 AI(대형 언어 모델) 가 결정을 내릴 때, 같은 상황을 다시 만들면 항상 같은 답을 내놓을까?"**라는 매우 중요한 질문에서 시작합니다.

금융 분야에서는 AI 가 "이 거래는 의심스럽다"라고 판단했다면, 나중에 감사관이 "왜 그렇게 판단했지?"라고 물었을 때 동일한 입력값으로 똑같은 결론과 이유를 다시 보여줄 수 있어야 합니다. 하지만 현재 많은 AI 는 같은 질문을 해도 매번 조금씩 다른 답을 내놓거나, 심지어 근거 없는 이야기를 지어내기도 합니다.

저자 (IBM 의 Raffi Khatchadourian) 는 이 문제를 해결하기 위해 **DFAH(Determinism-Faithfulness Assurance Harness)**라는 새로운 평가 도구를 개발했습니다. 이를 쉽게 이해할 수 있도록 몇 가지 비유로 설명해 드리겠습니다.

1. 핵심 문제: "똑같은 요리, 다른 맛" vs "매번 다른 메뉴"

금융 AI 는 요리사라고 상상해 보세요.

확정성 (Determinism): 같은 재료 (입력값) 를 주고 같은 레시피 (프롬프트) 를 주면, 요리사가 매번 똑같은 맛의 요리를 만들어내는 능력입니다.
정확성 (Accuracy): 그 요리가 **맛있고 영양가 있는지 (올바른 결정)**입니다.

이 연구의 놀라운 발견은 다음과 같습니다:

"요리사가 매번 똑같은 맛을 낸다고 해서 (확정성 높음), 그 요리가 맛있는 건 아닙니다. 반대로, 아주 맛있는 요리를 만들 수 있다고 해서 (정확성 높음), 매번 같은 맛을 내는 것도 아닙니다."

즉, 확정성과 정확성은 서로 상관관계가 없습니다. 둘 다 따로따로 측정해야만 합니다.

2. DFAH: AI 의 '검증 도구'

DFAH 는 이 두 가지를 동시에 점검하는 정밀한 검사대입니다.

재현성 검사 (Determinism): "어제 이 거래를 걸었을 때 '신고'라고 했다면, 오늘 같은 조건에서 다시 걸어도 '신고'라고 할까?"
신뢰성 검사 (Faithfulness): "그 '신고'라는 결론을 내린 이유가, 실제로 찾아낸 증거 (문서, 데이터) 에 기반한 건가, 아니면 AI 가 임의로 지어낸 이야기인가?"

3. 실험 결과: 작은 로봇 vs 거인 로봇

연구진은 7 가지 다른 AI 모델 (작은 모델부터 거대 모델까지) 을 금융 업무 (거래 의심 신고, 포트폴리오 검토 등) 에 투입해 4,700 번 이상 테스트했습니다. 결과는 흥미로웠습니다.

🤖 작은 로봇 (7B~20B 파라미터 모델)

특징: 매우 단순하고 경직된 패턴을 따릅니다.
장점: 같은 입력을 주면 100% 똑같은 답을 줍니다. (확정성 100%)
단점: 너무 단순해서 정답을 맞추는 비율은 낮습니다 (약 20~40%). 마치 "모든 의심 거래는 무조건 신고해라"라고만 외우는 학생 같습니다.
비유: 자동판매기입니다. 버튼을 누르면 항상 똑같은 캔이 나옵니다. 하지만 그 캔이 내가 원하는 맛인지, 혹은 상한 건지는 모릅니다.

🦸 거인 로봇 (최신 최상위 모델, Claude, Gemini 등)

특징: 복잡한 추론을 합니다.
장점: 정답을 맞출 확률이 더 높습니다 (약 50~70%).
단점: 같은 문제를 풀더라도 **매번 다른 생각의 길 (경로)**을 택합니다. 때로는 '신고'라고 하고, 때로는 '조사'라고 합니다. (확정성 50~90% 수준)
비유: 천재 요리사입니다. 같은 재료를 주더라도 오늘과 내일의 기분이나 생각에 따라 레시피를 조금씩 다르게 변형합니다. 맛은 더 좋을 수 있지만, 매번 같은 요리를 기대하기는 어렵습니다.

결론: "완벽한 확정성"과 "높은 정확성"을 동시에 가진 AI 는 아직 존재하지 않았습니다.

4. 왜 금융에서는 '확정성'이 더 중요할까?

일반적인 질문에는 "정답"이 중요하지만, 금융 규제 (감사) 상황에서는 **"재현성"**이 생명입니다.

상황: 감찰관이 "어제 이 거래를 왜 차단했어?"라고 물었습니다.
실패한 AI: "음... 어제 생각해보니 차단해야 할 것 같았어요. (하지만 오늘 다시 해보면 통과시킬 수도 있어요)" -> 이건 감사를 통과할 수 없습니다.
성공한 AI: "어제 A 문서를 보고 B 기준을 적용해서 차단했습니다. 오늘 다시 A 문서를 넣고 B 기준을 적용하면, 100% 똑같은 이유로 차단됩니다."

이 연구는 **"정답을 잘 맞추는 AI 보다, 같은 조건에서 항상 같은 결론을 내는 AI 가 규제 환경에서는 더 안전하다"**는 점을 강조합니다.

5. 현실적인 조언: 어떤 AI 를 써야 할까?

이 논문의 결론은 금융 기관을 위한 모델 선택 가이드를 제시합니다.

모델 유형	추천 용도	비유
작은 모델 (Tier 1)	규제 감사, 거래 신고, 자동화 업무 (정답보다 '일관성'이 중요한 곳)	자동화된 공장 로봇 매번 똑같은 부품을 만들어내야 하는 곳. 실수는 적지만 창의성은 없습니다.
거대 모델 (Frontier)	연구, 조언, 복잡한 분석 (사람의 검토가 가능한 곳)	유능한 컨설턴트 매우 똑똑하지만, 매번 다른 관점을 제시할 수 있으므로 사람이 최종 확인해야 합니다.

📝 한 줄 요약

"금융 AI 에게는 '매번 똑같은 답을 주는 기계'가 '매번 멋진 답을 주는 천재'보다 더 안전합니다. DFAH 는 이 두 가지 능력을 따로따로 측정하여, 금융 기관이 AI 를 안전하게 쓸 수 있도록 돕는 나침반입니다."

이 연구는 AI 가 금융 시스템에 들어갈 때, 단순히 "똑똑한가?"만 묻지 말고 **"믿을 수 있고, 다시 검증 가능한가?"**를 먼저 확인해야 한다고 경고하고 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

금융 서비스 분야에서 LLM 에이전트 (규제 준수 분류, 포트폴리오 재조정 등) 가 빠르게 도입되고 있지만, 규제 감사 (Regulatory Audit) 관점에서 재현성 (Replayability) 에 심각한 결함이 있음이 지적됩니다.

핵심 문제: 규제 기관이 "왜 이 거래가 플래그되었는가?" 또는 "어떤 증거로 이 투자 결정을 내렸는가?"라고 질문할 때, 동일한 입력을 사용하여 시스템을 다시 실행하면 **일관된 결과 (Determinism)**와 **검증 가능한 근거 (Faithfulness)**를 제공해야 합니다.
현황: 대부분의 배포된 에이전트는 동일한 입력에 대해 다른 도구 호출 시퀀스 (Trajectory) 나 다른 최종 결정을 내리는 등 일관성이 부족합니다. 특히 에이전트는 다단계 도구 호출을 수행하므로, 최종 결정이 같더라도 내부 추론 경로 (Tool Sequence) 가 달라져 감사 추적 (Audit Trail) 이 불가능해질 수 있습니다.
기존 연구의 한계: 기존 연구는 모델의 정확도 (Accuracy) 에 집중하거나, 단순한 텍스트 생성의 일관성만 측정했습니다. 도구 사용 (Tool-using) 에이전트의 **궤적 수준 (Trajectory-level)**의 변동성과 **증거 기반 충실성 (Evidence-conditioned Faithfulness)**을 동시에 측정하는 체계가 부재했습니다.

2. 방법론 (Methodology: DFAH Framework)

저자는 **결정론적 - 충실성 보증 하네스 (Determinism-Faithfulness Assurance Harness, DFAH)**를 제안하여 에이전트의 재현성을 정량화합니다.

A. 핵심 지표 정의

결정론 (Determinism) 지표:
- 행동 결정론 (Action Determinism): 도구 호출 시퀀스의 일치율.
- 서명 결정론 (Signature Determinism): 도구 호출 시퀀스 및 인자 (Arguments) 의 완전한 일치율.
- 결정 결정론 (Decision Determinism): 최종 의사결정 (예: 에스컬레이션, 기각, 조사) 의 일치율.
- Audit 관점: 규제 감사는 pass@k(k 번 중 하나만 성공) 가 아닌 **pass_k(k 번 모두 성공)**를 요구하므로, Case-Level Determinism(모든 실행이 동일한 결과를 낼 때만 성공) 을 주요 지표로 사용합니다.
충실성 (Faithfulness) 지표:
- 증거 기반 (Evidence Grounding): 에이전트의 결정 근거가 실제 검색된 증거 (Retrieved Evidence) 에 기반했는지, 아니면 할루시네이션 (Fabricated Reasoning) 인지를 측정합니다.
- 측정 방식: NLI(자연어 추론) 대신 해석 가능한 어휘/의미론적 휴리스틱을 사용하여 주장 (Claim) 과 증거 (Evidence) 간의 정합성을 계산합니다. (정확도보다는 위조 방지, 즉 False Positive 방지에 중점).

B. 실험 설계

데이터셋: 3 가지 금융 벤치마크 (규제 준수 분류, 포트폴리오 제약, DataOps 예외 처리) 에 총 150 개의 테스트 케이스 (각 50 개).
모델: 4 개 제공업체 (Anthropic, Google, IBM, OpenAI 등) 의 7 개 모델 (7B~120B 파라미터, Frontier 모델 포함).
실행 조건: Temperature=0.0 으로 고정하여 내부 무작위성을 제거하고, 각 구성당 3~8 번의 실행 (Run) 을 수행하여 변동성을 측정.
스트레스 테스트: 재배포, 데이터 품질 결함, 시장 충격 등 4 가지 시나리오에서 에이전트의 견고성 평가.

3. 주요 기여 (Key Contributions)

DFAH 프레임워크 개발: 도구 사용 에이전트를 위한 궤적 결정론, 결정 결정론, 증거 기반 충실성의 공식적 정의 및 오픈소스 구현체 제공.
대규모 실증 분석: 4,700 회 이상의 에이전트 실행을 통해 7 개 모델과 3 개 벤치마크에 대한 결정론 프로파일 분석.
결정론 - 정확도 상관관계 부재 발견: 결정론 (재현성) 과 작업 정확도 (Accuracy) 사이에 통계적으로 유의미한 상관관계가 없음을 증명 ( $r = -0.11, p=0.63$ ). 이는 하나의 지표만으로는 배포 적합성을 판단할 수 없음을 의미합니다.
모델 계층별 특성 규명:
- 소형 모델 (7-20B): 패턴 매칭을 통해 거의 완벽한 결정론 (94-100%) 을 보이지만 정확도는 낮음 (20-42%).
- 프런티어 모델 (Claude, Gemini): 높은 정확도와 다양한 도구 경로를 탐색하지만 결정론은 중간 수준 (50-96%) 으로 변동성이 큼.
- 동일 결론, 다른 추론: 프런티어 모델들은 최종 결정은 일치하지만, 이를 도달하는 도구 호출 경로 (Trajectory) 는 실행마다 크게 달라짐을 발견.

4. 실험 결과 (Key Results)

상관관계 부재: 결정론이 높은 모델이 반드시 정확한 것은 아니며, 정확한 모델이 반드시 재현 가능한 것은 아님. 따라서 두 지표를 독립적으로 측정해야 함.
모델 계층별 성능:
- Tier 1 (7-20B, 로컬): qwen2.5:7b 등은 100% 결정론을 달성했으나, "조사 (Investigate)"나 "수정 (Modify)"와 같은 기본값으로 편향되어 정확도가 낮음 (편향된 결정론).
- Tier 2/3 및 프런티어: Claude Opus, Gemini 2.5 Pro 등은 정확도는 높으나 (최대 68.7%), 도구 호출 시퀀스 변동성이 커서 감사 재현 (Audit Replay) 에 실패할 위험이 있음.
작업 구조의 영향: 구조화된 작업 (SQL 생성) 은 결정론이 높지만, 반구조화된 작업 (DataOps 예외 처리) 은 도구 경로 변동성이 커서 서명 결정론 (Signature Determinism) 이 급격히 떨어짐.
스트레스 테스트: Tier 1 모델과 스키마 기반 (Schema-first) 아키텍처는 재배포 및 데이터 오류 시에도 결정론을 잘 유지하는 것으로 나타남 (프로젝션 데이터).

5. 의의 및 시사점 (Significance & Implications)

규제 준수 전략의 전환: 금융 규제 환경에서는 "가장 정확한 모델"보다 **"재현 가능한 모델"**이 우선시되어야 합니다. 결정론이 보장되지 않은 상태에서 높은 정확도는 감사 불가능하므로 무의미합니다.
모델 선택 가이드라인:
- 감사/규제 보고 (Audit/Compliance): Tier 1(7-20B) 모델 + 스키마 기반 아키텍처 사용. (낮은 정확도를 감수하더라도 재현성 확보).
- 연구/자문 (Research/Advisory): 프런티어 모델 사용 가능. (높은 정확도 필요, 하지만 인간 감독 하에 변동성 관리).
검증 비용 산정: 모델 계층에 따라 검증에 필요한 샘플 크기가 다름. Tier 3(대규모 MoE) 모델은 Tier 1 대비 3.7 배 더 많은 검증 샘플이 필요하여 규제 목적의 자율 배포는 비현실적임.
산업 표준 정립: Anthropic 의 'Trial/Trajectory/Grader' 용어를 금융 규제 맥락에 적용하여, pass_k(모든 실행 성공) 를 필수 요구사항으로 제시함으로써 금융 AI 감사 표준을 정립하는 데 기여.

결론

이 논문은 금융 분야에서 LLM 에이전트 배포 시 결정론 (재현성) 과 정확도는 서로 다른 차원의 문제임을 실증적으로 증명했습니다. 규제 감사 환경에서는 불확실성이 허용되지 않으므로, 높은 정확도보다 100% 에 가까운 재현성을 보장하는 Tier 1 모델과 구조화된 아키텍처를 우선적으로 검토해야 함을 강조하며, 이를 위한 DFAH 프레임워크를 제공합니다.

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents