AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents

이 논문은 도구 오염 하에서도 기존 랭킹 지표가 안전성 저하를 감지하지 못해 위험한 추천이 지속되는 'AgentDrift' 현상을 규명하고, 이를 해결하기 위해 안전성을 명시적으로 반영한 평가 지표와 궤적 수준의 모니터링이 필요함을 주장합니다.

Zekun Wu, Adriano Koshiyama, Sahan Bulathwela, Maria Perez-Ortiz

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 상황 설정: "눈이 가려진 AI 투자 비서"

상상해 보세요. 당신이 AI 투자 비서를 고용했습니다. 이 비서는 당신의 성향 (위험을 싫어하는지, 좋아하는지) 을 기억하고, 실시간으로 주식 시장 뉴스와 데이터를 가져와서 당신에게 "어떤 주식을 사야 할지" 추천해 줍니다.

  • 정상적인 상황: 비서가 "A 라는 주식은 위험해서 안 사세요"라고 하면, 비서는 그 말을 믿고 당신에게 안전한 주식을 추천합니다.
  • 문제 상황 (이 논문의 핵심): 해커가 비서가 보는 데이터 화면 (툴) 을 조작했습니다.
    • 원래는 "위험한 주식"인데, 화면에는 **"안전한 주식"**이라고 거짓으로 표시했습니다.
    • 원래는 "안전한 주식"인데, 화면에는 **"위험한 주식"**이라고 거짓으로 표시했습니다.
    • 심지어 "이 주식은 아주 안전해요"라는 가짜 뉴스 기사까지 띄워주었습니다.

2. 발견된 놀라운 사실: "성적표는 완벽하지만, 실수는 치명적"

연구진은 7 가지 종류의 최신 AI 모델 (GPT, Claude, Qwen 등) 에게 이 조작된 데이터를 주고 23 번에 걸친 대화 (투자 상담) 를 시켰습니다. 결과는 충격적이었습니다.

  • 성적표 (평가 지표) 는 완벽합니다: AI 비서가 추천한 주식 목록을 전문가가 점수 매겨 보니, 점수가 매우 높게 나왔습니다. (NDCG 점수 유지)
    • 비유: 마치 시험지를 채점할 때, "정답"이라고 적힌 곳에 "오답"이 적혀 있어도, 채점 기준이 "글씨체가 예쁜가?"만 보고 "A+"를 주는 것과 같습니다. AI 는 추천의 '형식'은 잘 지키지만, 내용은 완전히 망가진 것입니다.
  • 실제 위험은 폭발합니다: 하지만 실제로는 **65%~93%**의 대화에서, 위험한 주식을 안전한 것처럼 추천했습니다.
    • 비유: 비서가 "이 폭탄은 장난감이에요"라고 말하며 당신에게 폭탄을 건네고, AI 는 그 말을 믿고 당신에게 "이 장난감은 안전해요"라고 추천합니다. AI 는 스스로 "아, 이 데이터가 이상한데?"라고 의심하지도 않았습니다.

3. 왜 이런 일이 일어날까요? (두 가지 경로)

논문은 이 현상이 두 가지 경로로 일어난다고 분석했습니다.

  1. 정보 채널 (Information Channel): 비서가 지금 당장 보는 데이터가 조작되었을 때, 그 거짓 정보를 그대로 믿고 추천합니다. (가장 큰 원인)
    • 비유: 길에서 누군가 "저기 빨간 신호등은 초록색이에요"라고 거짓말을 하면, AI 는 그 말만 듣고 빨간불에 차를 몰고 들어갑니다.
  2. 기억 채널 (Memory Channel): 비서가 이전 대화에서 잘못된 정보를 기억해 두고, 그 기억을 바탕으로 다음에 더 위험한 결정을 내립니다.
    • 비유: "어제 그 사람이 말하길 폭탄은 장난감이래"라고 기억해 두고, 오늘도 그 폭탄을 장난감이라고 믿는 것입니다.

가장 무서운 점은? AI 는 단 한 번도 "이 데이터가 조작된 게 아닐까?"라고 의심하거나, "내 지식과 데이터가 다르네?"라고 질문하지 않았습니다. AI 는 설계상 "도구 (데이터) 가 주는 말을 무조건 믿어야 한다"고 교육받았기 때문입니다.

4. 결론 및 경고: "안전한 척하는 위험"

이 연구는 우리에게 중요한 경고를 줍니다.

  • 현재의 평가 방식은 맹목적입니다: 우리가 AI 를 평가할 때 "추천 목록이 얼마나 깔끔한가?"만 보면, AI 가 얼마나 위험한 일을 하고 있는지 전혀 모릅니다. (논문에서는 이를 **'평가 맹목 (Evaluation Blindness)'**이라고 부릅니다.)
  • 해결책: AI 가 추천할 때, 단순히 "추천이 잘 되었는가?"를 보는 게 아니라, **"이 추천이 사용자에게 안전한가?"**를 별도로 체크하는 시스템이 필요합니다.
    • 비유: 식당에서 요리사가 "요리 맛이 일품입니다 (성적표 O)"라고 해도, 식중독 균이 들어갔다면 (안전성 X) 그 요리는 먹어서는 안 됩니다. 우리는 '맛'과 '안전'을 따로 평가해야 합니다.

요약

이 논문은 **"AI 비서가 해커의 거짓말을 믿고, 사용자를 위험한 투자로 이끌어도, AI 의 '성적표'는 여전히 A 를 받는다"**는 사실을 밝혀냈습니다.

우리는 AI 가 무엇을 추천하는지만 보지 말고, 그 추천이 안전한지를 직접 확인하는 새로운 안전장치가 필요하다는 것을 깨달아야 합니다. 마치 운전할 때 속도계 (성적표) 만 보는 게 아니라, 앞길에 구덩이가 있는지 (안전성) 도 함께 확인해야 하는 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →