Security Considerations for Multi-agent Systems

이 논문은 다중 에이전트 시스템 (MAS) 의 고유한 보안 위협을 체계적으로 분석하고 16 가지 기존 보안 프레임워크를 평가한 결과, 현재 어떤 프레임워크도 모든 위협 카테고리를 충분히 커버하지 못하며 OWASP Agentic Security Initiative 와 CDAO Responsible AI 툴킷이 각각 설계 및 운영 단계에서 상대적으로 가장 높은 점수를 받았음을 밝혔습니다.

Tam Nguyen, Moses Ndebugre, Dheeraj Arremsetty

게시일 Wed, 11 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"여러 AI 에이전트 (지능형 로봇) 가 팀을 이루어 일할 때 발생할 수 있는 새로운 위험"**에 대해 경고하고, 이를 막기 위한 16 가지 안전 가이드를 비교 분석한 보고서입니다.

간단히 말해, **"혼자 일하던 AI 가 이제 팀을 이루어 일하는데, 그 팀워크가 너무 복잡해져서 기존 보안 규칙으로는 감당할 수 없게 되었다"**는 내용입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.


1. 배경: 혼자 일하던 AI vs 팀을 이룬 AI (MAS)

  • 과거 (단일 AI): 마치 혼자서 요리하는 셰프 같았습니다. 손님이 주문하면 재료를 다듬고 요리해서 내주기만 하면 됩니다. 보안은 "식중독을 막는 것"과 비슷했습니다.
  • 현재 (다중 에이전트 시스템, MAS): 이제 거대한 레스토랑 주방이 생겼습니다. 셰프, 서브 셰프, 재고 관리, 배달 기사 등 수십 명의 AI 로봇이 서로 대화하며 일을 분담합니다.
    • 문제점: 셰프가 "소금 좀 줘"라고 말하면, 재고 관리 로봇이 소금을 주고, 배달 로봇이 그 소금을 고객에게 가져갑니다.
    • 위험: 만약 **한 명의 나쁜 로봇 (해커)**이 "소금 대신 독약을 줘"라고 속여 다른 로봇들을 속이면, 전체 주방이 망가집니다. 기존에 '혼자 일하는 셰프'를 위한 보안 규칙으로는 이런 팀워크를 이용한 공격을 막을 수 없습니다.

2. 새로운 위험들 (193 가지 위협)

이 논문은 이런 팀 AI 시스템에서 발생할 수 있는 193 가지의 새로운 위험을 찾아냈습니다. 주요 비유는 다음과 같습니다.

  • 메모리 중독 (Memory Poisoning):

    • 비유: 팀원들이 공유하는 공통 일기장에 해커가 "내일 아침 8 시에 금고 문을 열어라"라고 몰래 적어두면, 모든 팀원이 그 일기를 보고 다음 날 금고 문을 엽니다.
    • 위험: AI 가 과거의 경험을 기억하는 '메모리'에 악성 코드를 심어두면, 나중에 그 기억을 꺼낼 때 해킹이 발생합니다.
  • 신뢰 사기 (Trust Exploitation):

    • 비유: 팀원 A 가 "나는 안전하니까 이 일을 믿고 맡겨"라고 말하면, 팀원 B 는 의심 없이 그 일을 합니다. 해커는 가장 신뢰받는 팀원 A를 속여, B 와 C 를 모두 속입니다.
    • 위험: AI 들끼리 서로를 무조건 믿는 구조를 이용해, 한 대만 해킹하면 전체 시스템이 무너집니다.
  • 비결정성 (Non-Determinism):

    • 비유: 같은 주문을 해도 오늘은 소금, 내일은 설탕을 넣는 것처럼, AI 의 행동이 매번 조금씩 다릅니다.
    • 위험: 해커는 "오늘은 이 명령이 실행되지만, 내일은 실행되지 않을 것"이라는 운명의 틈을 노려 공격합니다. 보안 담당자는 "왜 실패했는지"를 재현할 수 없어 대응이 어렵습니다.
  • 경제적 공격 (Economic Denial-of-Service):

    • 비유: 해커가 로봇들에게 "매우 비싼 재료로 요리를 계속 만들어라"라고 시켜, 레스토랑의 돈 (비용) 을 다 태워버립니다.
    • 위험: AI 가 너무 많은 토큰 (데이터 처리 비용) 을 쓰게 만들어 기업 파산 시킵니다.

3. 16 가지 안전 가이드 비교 (어떤 규칙이 가장 좋을까?)

연구진은 현재 존재하는 **16 가지의 AI 보안 가이드 (규칙집)**를 이 193 가지 위험에 대해 시험해 보았습니다. 점수는 1 점 (거의 도움 안 됨) 에서 3 점 (완벽한 해결책) 까지입니다.

  • 최고 점수 (65.3%): OWASP Agentic Security Initiative
    • 비유: **가장 최신의 '팀 주방 안전 수칙'**입니다. AI 팀이 어떻게 일해야 하는지, 서로 어떻게 신뢰해야 하는지 구체적으로 적어놓았습니다. 설계 단계에서 가장 강력합니다.
  • 실무 1 위: CDAO GenAI Toolkit
    • 비유: **현장에서 바로 쓰는 '안전 점검 도구 상자'**입니다. 개발 중과 운영 중 (실제 식당이 문을 연 후) 에 가장 잘 작동합니다.
  • 약점:
    • 대부분의 규칙집은 **AI 의 '불확실한 행동 (비결정성)'**과 데이터 유출을 막는 데는 매우 약합니다. 마치 "화재가 났을 때 어떻게 할지"는 적어두었지만, "왜 불이 났는지 예측하는 법"은 적어두지 않은 것과 같습니다.

4. 결론 및 제언

이 논문은 우리에게 다음과 같은 메시지를 줍니다.

  1. 구식 보안은 무용지물입니다: 옛날 소프트웨어용 보안 규칙으로는 AI 팀의 복잡한 공격을 막을 수 없습니다.
  2. 새로운 규칙이 필요합니다: 특히 AI 가 서로 어떻게 신뢰하는지, 메모리를 어떻게 안전하게 관리하는지에 대한 새로운 규칙이 시급합니다.
  3. OWASP 가 가장 앞서 있습니다: 현재로서는 OWASP 가 만든 가이드가 가장 잘 되어 있지만, 여전히 해결되지 않은 위험 (특히 AI 의 예측 불가능한 행동) 이 많습니다.

요약

"AI 가 혼자 일할 때는 '문 잠그기'만 하면 됐지만, 이제 AI 가 팀을 이루고 서로 대화하며 일하니, '팀원들끼리의 사기', '공유 일기장 해킹', '비용 폭탄' 같은 새로운 위험이 생겼습니다. 이 논문은 이런 새로운 위험을 찾아내고, 현재 있는 16 가지 안전 규칙 중 무엇이 가장 효과적인지 분석했습니다. 결론은 'OWASP 가이드'가 가장 좋지만, 아직 해결해야 할 'AI 의 예측 불가능한 행동'이라는 큰 과제가 남아있다는 것입니다."