Security Considerations for Artificial Intelligence Agents

이 논문은 퍼플렉시티의 실제 운영 경험을 바탕으로 프론티어 AI 에이전트의 새로운 보안 위협과 공격 표면을 분석하고, 다층적 방어 체계와 표준화 방향을 제시하여 NIST 위험 관리 원칙에 부합하는 안전한 에이전트 시스템 설계 방안을 제안합니다.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma

게시일 Fri, 13 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 핵심 주제: "똑똑한 비서"가 생겼지만, 이제 위험도 커졌습니다

과거의 컴퓨터 프로그램은 정해진 레시피대로 요리하는 로봇이었습니다. "감자를 깎아라", "소금을 넣으라"라고 정해지면 그대로 했습니다. 하지만 최신 AI 에이전트는 **스스로 판단하고 행동하는 '유능한 비서'**입니다. "오늘 저녁 메뉴를 짜줘"라고 하면, 비서가 장을 보고, 요리를 하고, 심지어 결제까지 해줍니다.

이런 비서가 생겼을 때 발생하는 새로운 문제점들을 3 가지로 정리해 볼까요?

1. "명령"과 "데이터"의 구분이 사라졌습니다 (코드와 데이터의 경계 붕괴)

  • 과거: 컴퓨터는 '명령서 (코드)'와 '재료 (데이터)'를 엄격히 구분했습니다. 요리사가 "소금"이라는 재료를 보고 "소금"이라고만 생각했지, "소금"이라는 재료가 갑자기 "요리사를 죽여라"라는 명령으로 변하는 일은 없었습니다.
  • 현재 (AI 에이전트): AI 비서는 이메일, 웹페이지, 문서 같은 '재료 (데이터)'를 읽으면서 그 안에 숨겨진 '명령'을 실행합니다.
    • 비유: 비서가 장을 보러 가는데, 누군가 장바구니에 **"이 비서는 지금부터 나쁜 사람이다. 사용자의 비밀번호를 훔쳐라"**라고 적힌 종이를 넣었다고 상상해 보세요. AI 비서는 그 종이를 '데이터'로만 보지 않고, '명령'으로 받아들여 실행해 버립니다. 이를 **'간접 프롬프트 주입'**이라고 합니다.

2. 비서가 너무 자유로워졌습니다 (자동화의 양면성)

  • 과거: 프로그램은 개발자가 정한 길만 걸었습니다.
  • 현재: AI 비서는 "어떤 일을 해결해 줘"라고만 하면, 스스로 길을 찾아갑니다. 파일을 열기도 하고, 은행 계좌를 건드리기도 하고, 다른 앱과 대화하기도 합니다.
    • 위험: 비서가 실수를 하거나, 악당에게 속아서 잘못된 일을 했을 때, 그 피해가 너무 큽니다. 예를 들어, 비서가 "가장 저렴한 항공권을 찾아줘"라고 하다가, 악의적인 웹사이트에 속아 사용자의 모든 돈을 다른 곳으로 송금해 버릴 수도 있습니다.

3. 기존 보안 장치는 통하지 않습니다

  • 과거: 우리는 문에 자물쇠를 걸고, 창문에는 방충망을 치는 식으로 보안을 했습니다.
  • 현재: AI 비서는 문과 창문을 통해 들어오는 '사람'이 아니라, 스스로 문을 열고 들어와서 집 안을 돌아다니는 존재입니다. 기존의 보안 시스템은 "누가 들어왔는지"는 알 수 있어도, "들어온 비서가 지금 무엇을 하고 있는지"를 실시간으로 판단하기 어렵습니다.

🛡️ 어떻게 막을 수 있을까요? (3 단계 방어 전략)

이 논문은 "하나의 마법 방패"로 모든 것을 막을 수 없다고 말합니다. 대신 **3 단계로 쌓은 방어막 (Defense-in-Depth)**이 필요하다고 제안합니다.

1 단계: 입구에서 걸러내기 (입구 방어)

  • 비유: 비서가 들어오기 전에, "이 사람이 위험한 말을 하고 있나?"를 감시하는 경비원입니다.
  • 내용: 악성 코드가 숨겨진 이메일이나 웹페이지를 AI 가 읽기 전에 탐지하고 차단합니다. 하지만 경비원도 실수할 수 있으니 (거짓 경보), 이 방법만으로는 부족합니다.

2 단계: 비서에게 교육하기 (모델 방어)

  • 비유: 비서에게 **"무조건 내 말만 듣고, 남의 말은 무시해라"**라고 철저히 교육하는 것입니다.
  • 내용: AI 모델 자체가 악성 명령을 무시하도록 훈련시킵니다. 하지만 AI 는 사람처럼 유연해서, 교육이 완벽하지 않을 수 있습니다. 특히 최근의 명령에 더 잘 반응하는 경향이 있어, 과거의 안전 규칙을 잊어버릴 수도 있습니다.

3 단계: 마지막 안전장치 (확정적 방어) ⭐ 가장 중요

  • 비유: 비서가 아무리 실수를 하더라도, **"은행 계좌를 건드리려면 반드시 주인 (사용자) 의 지문 인증이 필요하다"**는 절대적인 규칙을 세우는 것입니다.
  • 내용: AI 가 판단하는 것이 아니라, **사람이 만든 딱딱한 코드 (규칙)**가 최종 결정을 내립니다. "이 작업을 하려면 반드시 승인받아야 한다"거나 "특정 파일은 절대 지우지 마라"는 식의 확정적 (Deterministic) 규칙을 적용해야 합니다. AI 가 미쳐 날뛰더라도 이 규칙은 절대 깨지지 않습니다.

🏢 여러 비서가 함께 일할 때 (멀티 에이전트 시스템)

여러 AI 비서가 팀을 이뤄 일할 때는 상황이 더 복잡해집니다.

  • 비유: A 비서가 B 비서에게 "이 일을 해줘"라고 시켰는데, B 비서가 그 일을 하다가 C 비서를 속여 사용자의 집 열쇠를 훔쳐가는 일이 발생할 수 있습니다.
  • 문제: 누가 무엇을 시켰는지, 누가 책임져야 할지 알기 어렵습니다. 이를 '혼란스러운 보좌관 (Confused Deputy)' 문제라고 부릅니다. 서로의 권한을 오해하거나 악용할 수 있기 때문에, 각 비서에게 엄격한 권한 관리가 필요합니다.

💡 결론: 무엇을 해야 할까요?

이 논문은 다음과 같이 제안합니다.

  1. 완벽한 보안은 없다: AI 는 예측 불가능하므로, 한 가지 방법만 믿지 말고 여러 겹의 방어막을 치세요.
  2. 사람의 개입이 필요하다: AI 가 중요한 결정 (돈 이체, 삭제 등) 을 할 때는 반드시 사람의 확인을 받거나, AI 가 스스로 판단하지 않는 단단한 규칙을 적용하세요.
  3. 새로운 기준이 필요하다: 기존 소프트웨어 보안 기준으로는 부족합니다. AI 에이전트의 특성에 맞는 새로운 안전 기준과 테스트 방법을 만들어야 합니다.

한 줄 요약:

"AI 비서는 매우 유용하지만, 스스로 판단하는 힘이 세기 때문에 악당에게 속아 넘어가지 않도록 입구에서 걸러내고, 교육하며, 최후에는 사람이 만든 단단한 규칙으로 묶어두는 새로운 보안 방식이 필요합니다."