Each language version is independently generated for its own context, not a direct translation.
🕵️♂️ 1. 문제: "바보 같은 검색"과 "지친 조사관"
은행이나 금융 기관은 새로운 고객이 들어오면 "이 사람이 범죄를 저지른 적이 있을까?"를 확인해야 합니다. 이를 **'부정적 미디어 스크리닝 (Adverse Media Screening)'**이라고 합니다.
- 기존 방식 1 (키워드 검색): "사기", "체포", "부패" 같은 단어가 포함된 기사를 찾습니다.
- 문제점: "사기"라는 단어가 들어간 요리 레시피나, "체포"라는 단어가 들어간 영화 리뷰까지 다 찾아와서 **거짓 경보 (False Positive)**를 울립니다. 마치 "치킨"을 검색했는데 "치킨"을 좋아하는 사람뿐만 아니라 "치킨"을 먹은 모든 사람을 용의자로 보는 것과 같습니다.
- 기존 방식 2 (사람이 직접 확인): 컴퓨터가 찾은 수천 개의 기사를 사람이 하나하나 읽어서 걸러냅니다.
- 문제점: 너무 비싸고 느립니다. 사람이 밤새도록 기사를 읽느라 지쳐버리면, 진짜 위험한 사람을 놓칠 수도 있습니다.
🤖 2. 해결책: "AI 탐정 (Agent)"의 등장
저자들은 **LLM(거대 언어 모델)**을 이용한 새로운 **'AI 탐정 (AMI Agent)'**을 만들었습니다. 이 AI 는 단순히 단어를 찾는 게 아니라, 문맥을 이해하고 판단하는 능력을 갖췄습니다.
이 시스템은 마치 유능한 조사관이 다음과 같은 과정을 거치는 것처럼 작동합니다:
- 수색 (Search Engine): 인터넷 전체를 뒤져서 해당 인물의 이름과 관련된 기사들을 찾아냅니다.
- 수집 (Web Crawler): 찾은 기사들을 다운로드해서 내용을 읽을 수 있게 정리합니다.
- 분석 (Document Processor): 긴 기사들을 잘게 쪼개고, 핵심 내용이 어디에 있는지 '색인'을 만들어 둡니다. (마치 도서관에서 책의 목차를 미리 만들어두는 것과 같습니다.)
- 심문 (LLM Agent - RAG):
- AI 는 찾아낸 기사들을 바탕으로 세 가지 질문을 스스로 던집니다.
- "이 기사가 정말 이 사람의 이야기인가?" (동일인 확인)
- "이 내용이 얼마나 부정적인가?" (부정성 평가)
- "이 행위가 얼마나 위험한 범죄인가?" (위험도 평가)
- 이때 AI 는 RAG(검색 증강 생성) 기술을 써서, 자신이 아는 지식뿐만 아니라 실제 찾아낸 기사 내용을 근거로 답합니다. (이게 중요합니다. AI 가 헛소리를 하는 '환각'을 막아줍니다.)
- 판단 (Verdict Generator): 모든 증거를 종합해서 **"이 사람과 거래해도 될까?"**에 대한 최종 점수 (AMI 점수) 와 이유를 한국어로 설명해 줍니다.
🎯 3. 실험 결과: "진짜 범인"과 "무고한 사람"을 구별하다
연구팀은 이 AI 를 네 가지 그룹으로 테스트했습니다.
- 🧹 깨끗한 사람 (Clean): 유명한 컴퓨터 과학자 (범죄와 무관함).
- 👔 공직자 (PEP): 정치인이나 고위 공직자 (부패 위험이 있을 수 있음).
- ⚖️ 규제 대상 (Watchlist): 금융 규제 위반으로 경고받은 사람.
- 🚫 제재 대상 (Sanctioned): 미국 등 국제적으로 제재받은 범죄자.
결과:
- 깨끗한 사람: AI 는 거의 0 점에 가까운 점수를 주었습니다. (거짓 경보가 거의 없음)
- 제재 대상: AI 는 0.8~0.9 점의 높은 위험 점수를 주었습니다.
- 중간 그룹: 공직자나 규제 대상은 그 사이의 점수를 받았습니다.
즉, AI 는 "무고한 사람을 괴롭히지 않으면서, 진짜 위험한 사람을 찾아내는" 능력을 보여줬습니다.
💡 4. 이 시스템의 장점과 한계
✅ 장점:
- 이해할 수 있는 이유: AI 가 "이 사람은 위험합니다"라고만 말하지 않고, "왜 위험한지" 구체적인 기사 내용을 인용해서 설명해 줍니다. (예: "2023 년 기사에서 사기 혐의로 체포되었다고 나와 있습니다.")
- 유연함: 은행마다 규칙이 다를 수 있는데, 이 시스템은 설정만 바꾸면 새로운 규칙도 적용할 수 있습니다.
- 학습 불필요: 별도의 데이터를 가르칠 필요 없이, 이미 알고 있는 지식을 활용합니다.
⚠️ 한계:
- 검색 엔진의 한계: 만약 범죄 기사가 검색 엔진에 올라와 있지 않다면, AI 는 찾을 수 없습니다. (보이지 않는 것은 찾을 수 없죠.)
- 이름이 같은 사람: "김철수"라는 이름이 너무 흔하면, 다른 김철수의 범죄 기록을 혼동할 수 있습니다.
- 언어: 현재는 영어 기사가 주를 이루는데, 다른 언어의 기사는 잘 못 찾습니다.
🏁 결론
이 논문은 **"AI 가 단순히 키워드를 찾는 게 아니라, 인간처럼 문맥을 읽고 판단하여 금융 범죄를 막는 데 도움을 줄 수 있다"**는 것을 보여줍니다.
마치 초능력을 가진 수사관이 매일 수천 편의 뉴스를 훑어보며, "이건 가짜야, 저건 진짜야"라고 판단해 주는 것과 같습니다. 앞으로 금융 기관은 이렇게 더 똑똑하고 빠른 AI 비서를 통해, 돈을 더 안전하게 지키게 될 것입니다.
Each language version is independently generated for its own context, not a direct translation.
1. 문제 정의 (Problem Statement)
불리 미디어 (Adverse Media) 선별은 금융 범죄, 부패, 사기 등 불법 활동에 대한 고객 참여 가능성을 식별하는 과정으로, 자금세탁방지 (AML) 및 고객확인제도 (KYC) 의 핵심 요소입니다. 그러나 기존 접근 방식은 다음과 같은 한계를 가지고 있습니다.
- 키워드 기반 검색: 사전 정의된 키워드를 사용하지만, 신호 - 잡음비 (signal-to-noise) 문제가 심각하여 **높은 오탐지율 (False Positive)**을 초래합니다. (예: "구속 (arrested)"이라는 단어가 프로젝트 지연을 의미하는지 실제 범죄를 의미하는지 구분 불가)
- 하이브리드 방식 (키워드 + 수동 검토): 정확도는 높지만 비용이 많이 들고 확장성이 부족하며, 수동 검토 병목 현상을 유발합니다.
- 전통적 머신러닝 (NLP): 대량의 학습 데이터가 필요하며, 맥락 이해와 개체명 소거 (Entity Disambiguation) 에 어려움을 겪습니다.
- 규제 환경 변화: EU 의 4AMLD, 5AMLD, 6AMLD 및 새로운 AMLR(규제) 은 자동화와 유연한 대응을 요구하며, 기존 시스템은 이러한 진화하는 규제 요구사항을 충족하기 어렵습니다.
2. 방법론 (Methodology)
저자들은 **LLM 에이전트 (Agentic LLM)**와 **검색 증강 생성 (RAG)**을 결합한 자동화 파이프라인인 AMI Agent를 제안합니다. 이 시스템은 수동 개입 없이 웹 검색부터 위험 점수 산출까지 전 과정을 자동화합니다.
시스템 아키텍처 (4 단계 모듈)
- 검색 엔진 (Search Engine): 대상자의 신원 (이름, 생년월일 등) 을 기반으로 Google Custom Search API 등을 통해 웹 검색을 수행하고 상위 k개의 URL 을 추출합니다.
- 웹 크롤러 (Web Crawler): 검색된 URL 의 HTML 콘텐츠를 파싱하여 텍스트를 추출하고, LangChain Document 객체로 변환합니다.
- 문서 처리기 (Document Processor):
- Chunking: 문서를 중첩된 청크 (Chunk) 로 분할합니다.
- Embedding: 각 청크를 벡터로 변환하여 FAISS 벡터 스토어에 저장합니다. (로컬 모델 및 API 기반 모델 지원)
- LLM 에이전트 (LLM Agent):
- RAG 기반 질의응답: 검색된 문서 청크를 컨텍스트로 사용하여 LLM 에게 구조화된 플레이북 (Playbook) 질문을 수행합니다.
- 플레이북 (Playbook): 3 가지 차원의 평가 질문을 포함합니다.
- 신원 매칭 (Identity Matching): 문서가 대상자를 설명하는가? (0~1 점)
- 부정성 평가 (Negativity Assessment): 설명이 얼마나 부정적인가? (0~1 점)
- 위험 평가 (Risk Evaluation): 해당 활동의 위험도는 얼마나 높은가? (0~1 점)
- 판결 생성기 (Verdict Generator): 개별 문서 점수와 근거를 종합하여 최종 **불리 미디어 지수 (AMI Score, 0~1)**와 자연어 설명을 생성합니다.
기술적 특징
- DSPy 프레임워크 활용: LLM 의 출력을 구조화된 형식 (점수 및 근거) 으로 강제하여 정량적 분석을 가능하게 합니다.
- 다중 백엔드 지원: Ollama, vLLM(로컬), OpenAI, OpenRouter(API) 등 다양한 LLM 을 유연하게 교체하여 사용할 수 있습니다.
- Zero-shot 학습: 별도의 학습 데이터 없이 사전 훈련된 LLM 의 세계 지식을 활용합니다.
3. 주요 기여 (Key Contributions)
- 자동화된 에이전트 아키텍처: 구성 가능한 평가 플레이북을 통해 LLM 을 활용한 불리 미디어 선별 파이프라인을 처음 제안했습니다.
- 다차원 점수화 접근: 신원 매칭 신뢰도, 부정성, 활동 위험도를 분리하여 평가하는 정교한 점수화 방식을 도입했습니다.
- 오픈소스 구현: 로컬 및 API 기반 모델을 모두 지원하는 오픈소스 코드를 공개하여 재현성과 커스터마이징을 가능하게 했습니다.
- 포괄적 평가: 다양한 LLM 백엔드 (Grok, Gemini, GPT) 를 사용하여 4 가지 인구 집단 (청결한 이름, PEP, 규제 감시 목록, 제재 대상자) 에 대해 비교 평가했습니다.
4. 실험 결과 (Results)
데이터셋:
- Clean Names (저위험): DBLP(학술 논문) 저자 (오탐지율 확인용)
- PEP (저/중위험): OpenSanctions 의 공직자
- Regulatory Watchlist (중위험): 규제 당국의 제재/경고 목록
- Sanctioned Persons (고위험): OFAC 의 특별 지정 국민 (SDN) 목록
주요 성과:
- 점수 분리 (Score Separation): 모든 모델 (Grok 4.1 Fast, Gemini 2.5 Flash, GPT-4.1-Mini) 이 저위험 (Clean) 과 고위험 (SDN) 집단 사이를 명확히 구분했습니다.
- Clean 평균 점수: 0.015 ~ 0.029 (매우 낮음)
- SDN 평균 점수: 0.730 ~ 0.863 (매우 높음)
- PEP 및 RW: 중간 수준의 점수 분포를 보여 위험도 스펙트럼을 잘 반영했습니다.
- 모델 성능 비교:
- Grok 4.1 Fast: SDN 집단에서 가장 높은 평균 점수 (0.863) 와 가장 뚜렷한 분리를 보여주어 가장 강력한 성능을 보였습니다.
- GPT-4.1-Mini: 보수적인 점수 부여 경향 (SDN 평균 0.730) 을 보였으나, 오탐지를 줄이는 데 유리할 수 있습니다.
- 분포 분석: ECDF(경험적 누적 분포 함수) 그래프를 통해 저위험 집단은 0 에 밀집하고 고위험 집단은 높은 점수대에 분포하는 명확한 격차를 확인했습니다.
5. 의의 및 결론 (Significance & Conclusion)
- 맥락적 이해와 해석 가능성: 키워드 매칭의 한계를 넘어, LLM 은 문맥을 이해하여 오탐지를 줄이고, **자연어 기반의 근거 (Justification)**를 제공하여 규제 준수 (Compliance) 와 감사 (Audit) 에 필수적인 투명성을 확보했습니다.
- 규제 대응 유연성: 플레이북 기반 구조를 통해 규제 변화나 기관별 정책에 따라 평가 기준을 재학습 없이 쉽게 조정할 수 있습니다.
- 실용성: 오픈소스로 공개되어 금융 기관이 비용과 성능에 따라 모델을 선택하고 배포할 수 있는 기반을 마련했습니다.
한계점 및 향후 과제:
- 검색 엔진의 결과 의존성 (검색되지 않은 정보는 발견 불가).
- 동명이인 (Entity Disambiguation) 문제 해결의 어려움.
- LLM 의 할루시네이션 (Hallucination) 리스크 (RAG 로 완화되었으나 인간 검토 필요).
- 현재 영어 기반만 지원하며, 다국어 지원 및 시계열 가중치 (최근성 반영) 도입이 필요합니다.
이 연구는 AML 규정 준수 분야에서 AI 에이전트가 기존 시스템의 한계를 극복하고, 더 정확하고 투명하며 적응력 있는 선별 시스템을 구축할 수 있음을 입증했습니다.