An Agentic LLM Framework for Adverse Media Screening in AML Compliance

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 문제: "바보 같은 검색"과 "지친 조사관"

은행이나 금융 기관은 새로운 고객이 들어오면 "이 사람이 범죄를 저지른 적이 있을까?"를 확인해야 합니다. 이를 **'부정적 미디어 스크리닝 (Adverse Media Screening)'**이라고 합니다.

기존 방식 1 (키워드 검색): "사기", "체포", "부패" 같은 단어가 포함된 기사를 찾습니다.
- 문제점: "사기"라는 단어가 들어간 요리 레시피나, "체포"라는 단어가 들어간 영화 리뷰까지 다 찾아와서 **거짓 경보 (False Positive)**를 울립니다. 마치 "치킨"을 검색했는데 "치킨"을 좋아하는 사람뿐만 아니라 "치킨"을 먹은 모든 사람을 용의자로 보는 것과 같습니다.
기존 방식 2 (사람이 직접 확인): 컴퓨터가 찾은 수천 개의 기사를 사람이 하나하나 읽어서 걸러냅니다.
- 문제점: 너무 비싸고 느립니다. 사람이 밤새도록 기사를 읽느라 지쳐버리면, 진짜 위험한 사람을 놓칠 수도 있습니다.

🤖 2. 해결책: "AI 탐정 (Agent)"의 등장

저자들은 **LLM(거대 언어 모델)**을 이용한 새로운 **'AI 탐정 (AMI Agent)'**을 만들었습니다. 이 AI 는 단순히 단어를 찾는 게 아니라, 문맥을 이해하고 판단하는 능력을 갖췄습니다.

이 시스템은 마치 유능한 조사관이 다음과 같은 과정을 거치는 것처럼 작동합니다:

수색 (Search Engine): 인터넷 전체를 뒤져서 해당 인물의 이름과 관련된 기사들을 찾아냅니다.
수집 (Web Crawler): 찾은 기사들을 다운로드해서 내용을 읽을 수 있게 정리합니다.
분석 (Document Processor): 긴 기사들을 잘게 쪼개고, 핵심 내용이 어디에 있는지 '색인'을 만들어 둡니다. (마치 도서관에서 책의 목차를 미리 만들어두는 것과 같습니다.)
심문 (LLM Agent - RAG):
- AI 는 찾아낸 기사들을 바탕으로 세 가지 질문을 스스로 던집니다.
  - "이 기사가 정말 이 사람의 이야기인가?" (동일인 확인)
  - "이 내용이 얼마나 부정적인가?" (부정성 평가)
  - "이 행위가 얼마나 위험한 범죄인가?" (위험도 평가)
- 이때 AI 는 RAG(검색 증강 생성) 기술을 써서, 자신이 아는 지식뿐만 아니라 실제 찾아낸 기사 내용을 근거로 답합니다. (이게 중요합니다. AI 가 헛소리를 하는 '환각'을 막아줍니다.)
판단 (Verdict Generator): 모든 증거를 종합해서 **"이 사람과 거래해도 될까?"**에 대한 최종 점수 (AMI 점수) 와 이유를 한국어로 설명해 줍니다.

🎯 3. 실험 결과: "진짜 범인"과 "무고한 사람"을 구별하다

연구팀은 이 AI 를 네 가지 그룹으로 테스트했습니다.

🧹 깨끗한 사람 (Clean): 유명한 컴퓨터 과학자 (범죄와 무관함).
👔 공직자 (PEP): 정치인이나 고위 공직자 (부패 위험이 있을 수 있음).
⚖️ 규제 대상 (Watchlist): 금융 규제 위반으로 경고받은 사람.
🚫 제재 대상 (Sanctioned): 미국 등 국제적으로 제재받은 범죄자.

결과:

깨끗한 사람: AI 는 거의 0 점에 가까운 점수를 주었습니다. (거짓 경보가 거의 없음)
제재 대상: AI 는 0.8~0.9 점의 높은 위험 점수를 주었습니다.
중간 그룹: 공직자나 규제 대상은 그 사이의 점수를 받았습니다.

즉, AI 는 "무고한 사람을 괴롭히지 않으면서, 진짜 위험한 사람을 찾아내는" 능력을 보여줬습니다.

💡 4. 이 시스템의 장점과 한계

✅ 장점:

이해할 수 있는 이유: AI 가 "이 사람은 위험합니다"라고만 말하지 않고, "왜 위험한지" 구체적인 기사 내용을 인용해서 설명해 줍니다. (예: "2023 년 기사에서 사기 혐의로 체포되었다고 나와 있습니다.")
유연함: 은행마다 규칙이 다를 수 있는데, 이 시스템은 설정만 바꾸면 새로운 규칙도 적용할 수 있습니다.
학습 불필요: 별도의 데이터를 가르칠 필요 없이, 이미 알고 있는 지식을 활용합니다.

⚠️ 한계:

검색 엔진의 한계: 만약 범죄 기사가 검색 엔진에 올라와 있지 않다면, AI 는 찾을 수 없습니다. (보이지 않는 것은 찾을 수 없죠.)
이름이 같은 사람: "김철수"라는 이름이 너무 흔하면, 다른 김철수의 범죄 기록을 혼동할 수 있습니다.
언어: 현재는 영어 기사가 주를 이루는데, 다른 언어의 기사는 잘 못 찾습니다.

🏁 결론

이 논문은 **"AI 가 단순히 키워드를 찾는 게 아니라, 인간처럼 문맥을 읽고 판단하여 금융 범죄를 막는 데 도움을 줄 수 있다"**는 것을 보여줍니다.

마치 초능력을 가진 수사관이 매일 수천 편의 뉴스를 훑어보며, "이건 가짜야, 저건 진짜야"라고 판단해 주는 것과 같습니다. 앞으로 금융 기관은 이렇게 더 똑똑하고 빠른 AI 비서를 통해, 돈을 더 안전하게 지키게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

불리 미디어 (Adverse Media) 선별은 금융 범죄, 부패, 사기 등 불법 활동에 대한 고객 참여 가능성을 식별하는 과정으로, 자금세탁방지 (AML) 및 고객확인제도 (KYC) 의 핵심 요소입니다. 그러나 기존 접근 방식은 다음과 같은 한계를 가지고 있습니다.

키워드 기반 검색: 사전 정의된 키워드를 사용하지만, 신호 - 잡음비 (signal-to-noise) 문제가 심각하여 **높은 오탐지율 (False Positive)**을 초래합니다. (예: "구속 (arrested)"이라는 단어가 프로젝트 지연을 의미하는지 실제 범죄를 의미하는지 구분 불가)
하이브리드 방식 (키워드 + 수동 검토): 정확도는 높지만 비용이 많이 들고 확장성이 부족하며, 수동 검토 병목 현상을 유발합니다.
전통적 머신러닝 (NLP): 대량의 학습 데이터가 필요하며, 맥락 이해와 개체명 소거 (Entity Disambiguation) 에 어려움을 겪습니다.
규제 환경 변화: EU 의 4AMLD, 5AMLD, 6AMLD 및 새로운 AMLR(규제) 은 자동화와 유연한 대응을 요구하며, 기존 시스템은 이러한 진화하는 규제 요구사항을 충족하기 어렵습니다.

2. 방법론 (Methodology)

저자들은 **LLM 에이전트 (Agentic LLM)**와 **검색 증강 생성 (RAG)**을 결합한 자동화 파이프라인인 AMI Agent를 제안합니다. 이 시스템은 수동 개입 없이 웹 검색부터 위험 점수 산출까지 전 과정을 자동화합니다.

시스템 아키텍처 (4 단계 모듈)

검색 엔진 (Search Engine): 대상자의 신원 (이름, 생년월일 등) 을 기반으로 Google Custom Search API 등을 통해 웹 검색을 수행하고 상위 $k$ 개의 URL 을 추출합니다.
웹 크롤러 (Web Crawler): 검색된 URL 의 HTML 콘텐츠를 파싱하여 텍스트를 추출하고, LangChain Document 객체로 변환합니다.
문서 처리기 (Document Processor):
- Chunking: 문서를 중첩된 청크 (Chunk) 로 분할합니다.
- Embedding: 각 청크를 벡터로 변환하여 FAISS 벡터 스토어에 저장합니다. (로컬 모델 및 API 기반 모델 지원)
LLM 에이전트 (LLM Agent):
- RAG 기반 질의응답: 검색된 문서 청크를 컨텍스트로 사용하여 LLM 에게 구조화된 플레이북 (Playbook) 질문을 수행합니다.
- 플레이북 (Playbook): 3 가지 차원의 평가 질문을 포함합니다.
  1. 신원 매칭 (Identity Matching): 문서가 대상자를 설명하는가? (0~1 점)
  2. 부정성 평가 (Negativity Assessment): 설명이 얼마나 부정적인가? (0~1 점)
  3. 위험 평가 (Risk Evaluation): 해당 활동의 위험도는 얼마나 높은가? (0~1 점)
- 판결 생성기 (Verdict Generator): 개별 문서 점수와 근거를 종합하여 최종 **불리 미디어 지수 (AMI Score, 0~1)**와 자연어 설명을 생성합니다.

기술적 특징

DSPy 프레임워크 활용: LLM 의 출력을 구조화된 형식 (점수 및 근거) 으로 강제하여 정량적 분석을 가능하게 합니다.
다중 백엔드 지원: Ollama, vLLM(로컬), OpenAI, OpenRouter(API) 등 다양한 LLM 을 유연하게 교체하여 사용할 수 있습니다.
Zero-shot 학습: 별도의 학습 데이터 없이 사전 훈련된 LLM 의 세계 지식을 활용합니다.

3. 주요 기여 (Key Contributions)

자동화된 에이전트 아키텍처: 구성 가능한 평가 플레이북을 통해 LLM 을 활용한 불리 미디어 선별 파이프라인을 처음 제안했습니다.
다차원 점수화 접근: 신원 매칭 신뢰도, 부정성, 활동 위험도를 분리하여 평가하는 정교한 점수화 방식을 도입했습니다.
오픈소스 구현: 로컬 및 API 기반 모델을 모두 지원하는 오픈소스 코드를 공개하여 재현성과 커스터마이징을 가능하게 했습니다.
포괄적 평가: 다양한 LLM 백엔드 (Grok, Gemini, GPT) 를 사용하여 4 가지 인구 집단 (청결한 이름, PEP, 규제 감시 목록, 제재 대상자) 에 대해 비교 평가했습니다.

4. 실험 결과 (Results)

데이터셋:

Clean Names (저위험): DBLP(학술 논문) 저자 (오탐지율 확인용)
PEP (저/중위험): OpenSanctions 의 공직자
Regulatory Watchlist (중위험): 규제 당국의 제재/경고 목록
Sanctioned Persons (고위험): OFAC 의 특별 지정 국민 (SDN) 목록

주요 성과:

점수 분리 (Score Separation): 모든 모델 (Grok 4.1 Fast, Gemini 2.5 Flash, GPT-4.1-Mini) 이 저위험 (Clean) 과 고위험 (SDN) 집단 사이를 명확히 구분했습니다.
- Clean 평균 점수: 0.015 ~ 0.029 (매우 낮음)
- SDN 평균 점수: 0.730 ~ 0.863 (매우 높음)
- PEP 및 RW: 중간 수준의 점수 분포를 보여 위험도 스펙트럼을 잘 반영했습니다.
모델 성능 비교:
- Grok 4.1 Fast: SDN 집단에서 가장 높은 평균 점수 (0.863) 와 가장 뚜렷한 분리를 보여주어 가장 강력한 성능을 보였습니다.
- GPT-4.1-Mini: 보수적인 점수 부여 경향 (SDN 평균 0.730) 을 보였으나, 오탐지를 줄이는 데 유리할 수 있습니다.
분포 분석: ECDF(경험적 누적 분포 함수) 그래프를 통해 저위험 집단은 0 에 밀집하고 고위험 집단은 높은 점수대에 분포하는 명확한 격차를 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

맥락적 이해와 해석 가능성: 키워드 매칭의 한계를 넘어, LLM 은 문맥을 이해하여 오탐지를 줄이고, **자연어 기반의 근거 (Justification)**를 제공하여 규제 준수 (Compliance) 와 감사 (Audit) 에 필수적인 투명성을 확보했습니다.
규제 대응 유연성: 플레이북 기반 구조를 통해 규제 변화나 기관별 정책에 따라 평가 기준을 재학습 없이 쉽게 조정할 수 있습니다.
실용성: 오픈소스로 공개되어 금융 기관이 비용과 성능에 따라 모델을 선택하고 배포할 수 있는 기반을 마련했습니다.

한계점 및 향후 과제:

검색 엔진의 결과 의존성 (검색되지 않은 정보는 발견 불가).
동명이인 (Entity Disambiguation) 문제 해결의 어려움.
LLM 의 할루시네이션 (Hallucination) 리스크 (RAG 로 완화되었으나 인간 검토 필요).
현재 영어 기반만 지원하며, 다국어 지원 및 시계열 가중치 (최근성 반영) 도입이 필요합니다.

이 연구는 AML 규정 준수 분야에서 AI 에이전트가 기존 시스템의 한계를 극복하고, 더 정확하고 투명하며 적응력 있는 선별 시스템을 구축할 수 있음을 입증했습니다.

An Agentic LLM Framework for Adverse Media Screening in AML Compliance

🕵️‍♂️ 1. 문제: "바보 같은 검색"과 "지친 조사관"

🤖 2. 해결책: "AI 탐정 (Agent)"의 등장

🎯 3. 실험 결과: "진짜 범인"과 "무고한 사람"을 구별하다

💡 4. 이 시스템의 장점과 한계

🏁 결론

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

시스템 아키텍처 (4 단계 모듈)

기술적 특징

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Evaluating Prompting Strategies for Chart Question Answering with Large Language Models

MERIT: Memory-Enhanced Retrieval for Interpretable Knowledge Tracing

Less is More: Adapting Text Embeddings for Low-Resource Languages with Small Scale Noisy Synthetic Data

Evaluating Large Language Models' Responses to Sexual and Reproductive Health Queries in Nepali

Enhancing Safety of Large Language Models via Embedding Space Separation