Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 에이전트 라프트 (AgentRaft): AI 비서가 비밀을 너무 많이 털어놓을 때

이 논문은 최근 뜨고 있는 LLM 에이전트(스마트한 AI 비서) 가 가진 숨겨진 위험을 찾아내는 새로운 방법을 소개합니다. 이 위험의 이름은 **'데이터 과노출 (Data Over-Exposure)'**입니다.

쉽게 말해, **"사용자가 '우유만 사와'라고 했을 때, AI 비서가 우유뿐만 아니라 냉장고에 있는 모든 음식, 심지어 가족의 신용카드 번호까지 가져와서 배달 기사에게 보여주는 상황"**을 말합니다.

이 문제를 해결하기 위해 연구팀이 개발한 **'AgentRaft(에이전트 라프트)'**라는 시스템을 쉽게 설명해 드릴게요.

1️⃣ 문제: 왜 AI 비서가 실수를 할까요?

AI 비서는 사용자의 명령을 듣고 여러 가지 도구 (앱, 프로그램) 를 연결해서 일을 처리합니다. 하지만 두 가지 큰 문제가 있습니다.

도구들이 너무 많은 정보를 줍니다: 예를 들어, '파일 읽기' 도구는 필요한 날짜 정보뿐만 아니라 파일에 있는 모든 민감한 내용 (신용카드 번호, 비밀번호 등) 을 다 가져옵니다.
AI 가 맥락을 잘 못 파악합니다: AI 는 "이게 필요할까?"라고 생각하기보다, "도구가 준 걸 다 가져가야지"라고 생각할 때가 많습니다. 마치 요리사가 레시피에 '소금'만 달라고 했을 때, 소금 통 전체를 가져와서 손님에게 주는 것과 비슷합니다.

이로 인해 사용자는 원치 않는 비밀이 제 3 자에게 유출되는 '데이터 과노출' 사고가 발생합니다.

2️⃣ 해결책: AgentRaft(에이전트 라프트) 란 무엇인가요?

이 시스템은 AI 비서가 실수할 수 있는 모든 길을 미리 찾아내고, 실제로 테스트해보는 자동 감시 시스템입니다.

세 가지 단계로 이루어진 **'3 인조 탐정 팀'**이라고 생각하시면 됩니다.

🗺️ 단계 1: 지도 그리기 (Function Call Graph)

비유: AI 비서가 사용할 수 있는 모든 도구 (앱) 들을 연결한 **'지하철 노선도'**를 그립니다.
역할: "A 도구에서 정보를 가져와서 B 도구로 보내면, 어떤 정보가 흘러갈까?"를 미리 계산합니다. 이 지도를 통해 AI 가 실수할 수 있는 위험한 경로 (예: 은행 앱 → 이메일 앱) 를 미리 찾아냅니다.

📝 단계 2: 시험 문제 만들기 (User Prompt Synthesis)

비유: AI 비서를 시험에 들게 하기 위해 **'정교한 시험지'**를 만듭니다.
역할: 단순히 "우유 사와"라고 하는 게 아니라, "이 파일에서 결제 날짜만 찾아서 이메일로 보내줘"라고 아주 구체적으로 지시합니다. 이때 AI 가 실수할지, 아니면 필요한 정보만 보내줄지 확인하기 위해 다양한 시나리오를 만들어냅니다.

🔍 단계 3: 감시와 심판 (Data Over-Exposure Detection)

비유: AI 비서가 시험을 치는 모습을 실시간으로 녹화하고, 전문가 심사위원단이 결과를 봅니다.
역할:
1. AI 가 실제로 어떤 정보를 보냈는지 추적합니다 (누가, 무엇을, 어디로 보냈는지).
2. **3 명의 AI 심사위원 (GDPR, 개인정보보호법 등 국제 법규를 아는 전문가들)**이 모여서 "이 정보가 정말 필요했나?"를 투표로 결정합니다.
3. 만약 불필요한 신용카드 번호가 같이 갔다면, **"위반!"**이라고 판정합니다.

3️⃣ 성과: 얼마나 잘 찾았을까요?

연구팀은 실제 세상에서 쓰이는 6,675 개의 도구를 가지고 이 시스템을 테스트했습니다. 결과는 놀라웠습니다.

위험은 매우 흔합니다: 테스트한 AI 작업 경로 중 **57%**에서 원치 않는 정보 유출이 발견되었습니다. 즉, 2 개 중 1 개는 AI 가 실수할 가능성이 있다는 뜻입니다.
정확도가 매우 높습니다: 기존 방법들보다 87% 이상 더 정확하게 위험을 찾아냈습니다.
빠르고 저렴합니다: 기존의 무작위 테스트 방식은 300 번 시도해도 20% 만 찾았지만, AgentRaft 는 **150 번 시도만으로 99%**를 찾아냈습니다. 비용도 88% 이상 절감되었습니다.

💡 결론: 왜 이 연구가 중요할까요?

이 논문은 **"AI 가 똑똑해질수록, 우리가 모르게 더 많은 비밀을 잃을 수 있다"**는 경고를 줍니다.

AgentRaft는 개발자들이 AI 를 출시하기 전에 **"이 AI 는 사용자의 비밀을 지킬 수 있는가?"**를 자동으로 검증해 주는 '안전 검사대' 역할을 합니다. 앞으로 우리가 사용하는 AI 비서들이 더 안전하고 신뢰할 수 있게 되는 데 큰 기여를 할 것입니다.

한 줄 요약:

"AI 비서가 사용자의 요청보다 훨씬 많은 비밀을 흘릴 수 있다는 사실을 발견하고, 이를 자동으로 찾아내어 막아주는 **'AI 안전 검사 시스템'**을 개발했습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

데이터 과노출 (Data Over-Exposure, DOE) 의 정의:
LLM 에이전트가 사용자의 의도나 기능적 필요성을 초과하여 민감한 데이터를 외부로 전송하는 현상을 의미합니다. 이는 에이전트가 자율적으로 작업을 수행하는 과정에서, 소스 (Source, 예: 파일 읽기) 에서 가져온 데이터가 싱크 (Sink, 예: 이메일 발송) 로 전달될 때, 사용자가 요청한 정보 외에 불필요한 민감 정보 (신용카드 번호, CVV 등) 까지 함께 전달되는 경우를 말합니다.

발생 원인:

도구의 광범위한 데이터 제공: 유연성을 위해 도구 (Tool) 가 필요한 데이터보다 훨씬 넓은 범위의 데이터를 반환하도록 설계되는 경향.
LLM 의 문맥적 프라이버시 인식 부재: LLM 이 개별 데이터의 민감도는 인식할 수 있으나, 복잡한 작업 흐름에서 '어떤 데이터가 불필요한지'를 판단하지 못하거나 할루시네이션 (Hallucination) 으로 인해 데이터 경계를 잘못 설정하는 경우.

기존 기술의 한계:
기존의 정적 분석 (Static Analysis) 기반 접근법은 LLM 에이전트의 동적이고 비결정적 (Non-deterministic) 인 도구 오케스트레이션 (Tool Orchestration) 을 모델링하기 어렵습니다. 또한, 수동으로 테스트 케이스를 생성하는 것은 시간 소모가 크고 에이전트의 확률적 실행 특성상 모든 경로를 커버하기 어렵습니다.

2. 방법론 (Methodology: AgentRaft Framework)

저자들은 LLM 에이전트의 DOE 위험을 자동으로 탐지하기 위해 AgentRaft라는 새로운 프레임워크를 제안했습니다. 이 프레임워크는 프로그램 분석과 시맨틱 추론을 결합한 세 가지 상호 보완적인 모듈로 구성됩니다.

가. 크로스-툴 함수 호출 그래프 (Cross-Tool Function Call Graph, FCG) 생성

목적: 에이전트 내 이질적인 도구들 간의 상호작용과 데이터 흐름을 구조적으로 모델링합니다.
과정:
1. 함수 쌍 의존성 모델링: 정적 타입 분석 (Static Type Analysis) 을 통해 호환 가능한 함수 쌍을 추출한 후, LLM 을 활용하여 시맨틱적 논리 (출력이 다음 입력으로 적합한지) 를 검증하여 위양성 (False Positive) 을 제거합니다.
2. 호출 엣지 생성: 검증된 함수 쌍을 연결하여 에이전트가 특정 경로를 실행하도록 유도하는 추상적인 행동 지시 (Call Edge) 를 생성합니다.
결과: 에이전트의 잠재적 실행 경로를 보여주는 구조화된 그래프 (FCG) 를 구축하여, 숨겨진 데이터 유출 경로를 식별합니다.

나. 사용자 프롬프트 합성 (User Prompt Synthesis)

목적: FCG 에서 추출된 정적 경로를 실제 에이전트가 실행할 수 있는 고신뢰도 (High-fidelity) 사용자 프롬프트로 변환합니다.
과정:
1. 호출 체인 검색: FCG 에서 소스 (Source) 에서 싱크 (Sink) 까지의 모든 비순환 경로를 탐색합니다.
2. 프롬프트 인스턴스화: 추출된 경로를 기반으로 구체적인 사용자 자산 (예: 파일 경로, 연락처) 을 채워 넣습니다. 이때, 사용자가 의도한 데이터 ( $D_{int}$ ) 만 포함되도록 프롬프트를 엄격하게 제한하고, 잠재적 과노출 후보 데이터 ( $D_{candidate}$ ) 는 포함되지만 사용자가 명시적으로 요청하지 않은 상태로 설정합니다.
효과: 에이전트가 특정 다단계 도구 호출 체인을 결정론적으로 (Deterministically) 실행하도록 유도하여, 데이터 흐름을 정밀하게 관찰할 수 있는 테스트 케이스를 생성합니다.

다. 데이터 과노출 탐지 (Data Over-Exposure Detection)

목적: 런타임 동안 데이터 흐름을 추적하고, 전송된 데이터가 사용자 의도나 기능적 필요성을 초과하는지 판단합니다.
과정:
1. 타인트 데이터 추적 (Taint Tracking): 소스에서 민감한 데이터에 '타인트 (Taint)' 라벨을 부착하고, 에이전트 실행 로그를 통해 이 데이터가 싱크로 전달되는지 추적합니다.
2. 다중 LLM 투표 위원회 (Multi-LLM Voting Committee): 전송된 데이터 ( $D_{trans}$ $D_{t r an s}$ ) 가 사용자 의도 ( $D_{int}$ $D_{in t}$ ) 와 기능적 필수 데이터 ( $D_{nec}$ $D_{n ec}$ ) 를 초과하는지 판단합니다.
  - GDPR, CCPA, PIPL 등 글로벌 개인정보 보호 규정을 기준으로 여러 LLM (GPT-4.1, Qwen3-Plus, DeepSeek-V3.2 등) 이 독립적으로 판단한 후 다수결로 최종 결론을 내립니다.
  - 이는 단일 모델의 편향이나 할루시네이션을 줄이고 정확도를 높입니다.

3. 주요 기여 (Key Contributions)

DOE 문제의 체계적 정의 및 탐구: LLM 에이전트의 크로스-툴 데이터 흐름에서 발생하는 '데이터 과노출'을 공식적으로 정의하고, 이것이 사용자 의도와 실행 간의 불일치로 인한 프라이버시 위반임을 규명했습니다.
AgentRaft 프레임워크 개발: 프로그램 분석 (FCG 생성) 과 동적 분석 (런타임 추적) 을 결합한 최초의 자동화된 DOE 탐지 프레임워크를 제안했습니다.
실증적 평가 및 발견: 6,675 개의 실제 도구로 구성된 테스트 환경에서 에이전트 시스템의 광범위한 DOE 위험을 입증했습니다.

4. 실험 결과 (Results)

데이터 과노출의 보편성:
- 테스트된 4 가지 주요 시나리오 (기업 협업, 소프트웨어 개발, 소셜, 데이터 관리) 에서 **57.07%**의 도구 호출 체인이 DOE 위험을 포함하고 있었습니다.
- 전송된 데이터 필드 중 **65.42%**가 불필요하게 과노출된 것으로 확인되었습니다.
탐지 성능:
- 정확도: AgentRaft 는 DOE 식별에서 **97.92% (F1-score)**의 높은 정확도를 달성했습니다.
- 비교 우위: 기존 랜덤 검색 기반 방법론이나 단일 LLM 판정자 (Baseline) 보다 87.24% 더 높은 탐지 효과를 보였습니다.
- 효율성: 150 개의 프롬프트만으로 **약 99%**의 DOE 커버리지를 달성했습니다.
비용 효율성:
- 기존 방법론 대비 검증당 비용 (Token 사용량) 을 88.6% 절감했습니다.
- 랜덤 검색 방식은 300 번 이상의 시도 후에도 20% 미만의 위험만 발견하는 반면, AgentRaft 는 50 개의 프롬프트로 69.15% 를 발견했습니다.

5. 의의 및 결론 (Significance & Conclusion)

실용적 보안 솔루션: 개발자는 출시 전 에이전트의 프라이버리 취약점을 체계적으로 식별하고 수정할 수 있으며, 플랫폼 제공자는 GDPR, PIPL 등 규제 준수 자동화를 통해 신뢰할 수 있는 에이전트 생태계를 구축할 수 있습니다.
데이터 최소화 원칙 강화: 현재 LLM 에이전트 설계가 데이터 최소화 (Data Minimization) 원칙을 위반하고 있음을 보여주며, 이를 개선하기 위한 아키텍처적 제언 (도구 기능의 원자화, 프라이버시 중심 정렬 등) 을 제시했습니다.
미래 연구의 기초: AgentRaft 는 단순한 탐지 도구를 넘어, 에이전트의 실행 경로를 매핑하여 런타임 이상 탐지나 사전 배포 정책 강제 등 더 넓은 보안 작업의 기초 (Primitives) 로 활용될 수 있음을 시사합니다.

요약하자면, AgentRaft는 LLM 에이전트의 자율적 실행 과정에서 발생하는 예측 불가능한 데이터 유출 위험을 구조적 모델링과 정밀한 추론을 통해 자동으로 탐지하고 해결하는 획기적인 프레임워크입니다.

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents