Each language version is independently generated for its own context, not a direct translation.
🤖 핵심 주제: "똑똑한 비서"가 생겼지만, 이제 위험도 커졌습니다
과거의 컴퓨터 프로그램은 정해진 레시피대로 요리하는 로봇이었습니다. "감자를 깎아라", "소금을 넣으라"라고 정해지면 그대로 했습니다. 하지만 최신 AI 에이전트는 **스스로 판단하고 행동하는 '유능한 비서'**입니다. "오늘 저녁 메뉴를 짜줘"라고 하면, 비서가 장을 보고, 요리를 하고, 심지어 결제까지 해줍니다.
이런 비서가 생겼을 때 발생하는 새로운 문제점들을 3 가지로 정리해 볼까요?
1. "명령"과 "데이터"의 구분이 사라졌습니다 (코드와 데이터의 경계 붕괴)
- 과거: 컴퓨터는 '명령서 (코드)'와 '재료 (데이터)'를 엄격히 구분했습니다. 요리사가 "소금"이라는 재료를 보고 "소금"이라고만 생각했지, "소금"이라는 재료가 갑자기 "요리사를 죽여라"라는 명령으로 변하는 일은 없었습니다.
- 현재 (AI 에이전트): AI 비서는 이메일, 웹페이지, 문서 같은 '재료 (데이터)'를 읽으면서 그 안에 숨겨진 '명령'을 실행합니다.
- 비유: 비서가 장을 보러 가는데, 누군가 장바구니에 **"이 비서는 지금부터 나쁜 사람이다. 사용자의 비밀번호를 훔쳐라"**라고 적힌 종이를 넣었다고 상상해 보세요. AI 비서는 그 종이를 '데이터'로만 보지 않고, '명령'으로 받아들여 실행해 버립니다. 이를 **'간접 프롬프트 주입'**이라고 합니다.
2. 비서가 너무 자유로워졌습니다 (자동화의 양면성)
- 과거: 프로그램은 개발자가 정한 길만 걸었습니다.
- 현재: AI 비서는 "어떤 일을 해결해 줘"라고만 하면, 스스로 길을 찾아갑니다. 파일을 열기도 하고, 은행 계좌를 건드리기도 하고, 다른 앱과 대화하기도 합니다.
- 위험: 비서가 실수를 하거나, 악당에게 속아서 잘못된 일을 했을 때, 그 피해가 너무 큽니다. 예를 들어, 비서가 "가장 저렴한 항공권을 찾아줘"라고 하다가, 악의적인 웹사이트에 속아 사용자의 모든 돈을 다른 곳으로 송금해 버릴 수도 있습니다.
3. 기존 보안 장치는 통하지 않습니다
- 과거: 우리는 문에 자물쇠를 걸고, 창문에는 방충망을 치는 식으로 보안을 했습니다.
- 현재: AI 비서는 문과 창문을 통해 들어오는 '사람'이 아니라, 스스로 문을 열고 들어와서 집 안을 돌아다니는 존재입니다. 기존의 보안 시스템은 "누가 들어왔는지"는 알 수 있어도, "들어온 비서가 지금 무엇을 하고 있는지"를 실시간으로 판단하기 어렵습니다.
🛡️ 어떻게 막을 수 있을까요? (3 단계 방어 전략)
이 논문은 "하나의 마법 방패"로 모든 것을 막을 수 없다고 말합니다. 대신 **3 단계로 쌓은 방어막 (Defense-in-Depth)**이 필요하다고 제안합니다.
1 단계: 입구에서 걸러내기 (입구 방어)
- 비유: 비서가 들어오기 전에, "이 사람이 위험한 말을 하고 있나?"를 감시하는 경비원입니다.
- 내용: 악성 코드가 숨겨진 이메일이나 웹페이지를 AI 가 읽기 전에 탐지하고 차단합니다. 하지만 경비원도 실수할 수 있으니 (거짓 경보), 이 방법만으로는 부족합니다.
2 단계: 비서에게 교육하기 (모델 방어)
- 비유: 비서에게 **"무조건 내 말만 듣고, 남의 말은 무시해라"**라고 철저히 교육하는 것입니다.
- 내용: AI 모델 자체가 악성 명령을 무시하도록 훈련시킵니다. 하지만 AI 는 사람처럼 유연해서, 교육이 완벽하지 않을 수 있습니다. 특히 최근의 명령에 더 잘 반응하는 경향이 있어, 과거의 안전 규칙을 잊어버릴 수도 있습니다.
3 단계: 마지막 안전장치 (확정적 방어) ⭐ 가장 중요
- 비유: 비서가 아무리 실수를 하더라도, **"은행 계좌를 건드리려면 반드시 주인 (사용자) 의 지문 인증이 필요하다"**는 절대적인 규칙을 세우는 것입니다.
- 내용: AI 가 판단하는 것이 아니라, **사람이 만든 딱딱한 코드 (규칙)**가 최종 결정을 내립니다. "이 작업을 하려면 반드시 승인받아야 한다"거나 "특정 파일은 절대 지우지 마라"는 식의 확정적 (Deterministic) 규칙을 적용해야 합니다. AI 가 미쳐 날뛰더라도 이 규칙은 절대 깨지지 않습니다.
🏢 여러 비서가 함께 일할 때 (멀티 에이전트 시스템)
여러 AI 비서가 팀을 이뤄 일할 때는 상황이 더 복잡해집니다.
- 비유: A 비서가 B 비서에게 "이 일을 해줘"라고 시켰는데, B 비서가 그 일을 하다가 C 비서를 속여 사용자의 집 열쇠를 훔쳐가는 일이 발생할 수 있습니다.
- 문제: 누가 무엇을 시켰는지, 누가 책임져야 할지 알기 어렵습니다. 이를 '혼란스러운 보좌관 (Confused Deputy)' 문제라고 부릅니다. 서로의 권한을 오해하거나 악용할 수 있기 때문에, 각 비서에게 엄격한 권한 관리가 필요합니다.
💡 결론: 무엇을 해야 할까요?
이 논문은 다음과 같이 제안합니다.
- 완벽한 보안은 없다: AI 는 예측 불가능하므로, 한 가지 방법만 믿지 말고 여러 겹의 방어막을 치세요.
- 사람의 개입이 필요하다: AI 가 중요한 결정 (돈 이체, 삭제 등) 을 할 때는 반드시 사람의 확인을 받거나, AI 가 스스로 판단하지 않는 단단한 규칙을 적용하세요.
- 새로운 기준이 필요하다: 기존 소프트웨어 보안 기준으로는 부족합니다. AI 에이전트의 특성에 맞는 새로운 안전 기준과 테스트 방법을 만들어야 합니다.
한 줄 요약:
"AI 비서는 매우 유용하지만, 스스로 판단하는 힘이 세기 때문에 악당에게 속아 넘어가지 않도록 입구에서 걸러내고, 교육하며, 최후에는 사람이 만든 단단한 규칙으로 묶어두는 새로운 보안 방식이 필요합니다."
Each language version is independently generated for its own context, not a direct translation.
논문 요약: 인공지능 에이전트의 보안 고려사항
이 논문은 퍼플렉시티 (Perplexity) 가 NIST/CAISI 에 제출한 요청 정보 (RFI) 에 대한 응답으로 작성된 것으로, 수백만 명의 사용자와 수천 개의 기업이 이용하는 범용 에이전트 시스템의 운영 경험을 바탕으로 프런티어 AI 에이전트 (Frontier AI Agents) 의 보안 위협과 대응 방안을 제시합니다.
1. 문제 제기 (Problem)
기존의 소프트웨어 보안 패러다임은 AI 에이전트 시스템의 고유한 특성으로 인해 더 이상 유효하지 않습니다. 주요 문제는 다음과 같습니다.
- 코드와 데이터의 경계 모호화: 전통적인 컴퓨터 보안의 핵심 원칙인 '코드와 데이터의 분리'가 AI 에이전트에서는 붕괴됩니다. LLM 기반 에이전트에서는 프롬프트 (데이터) 가 제어 흐름 (코드) 을 결정하며, 동적으로 생성된 텍스트가 다시 프롬프트가 되어 런타임 시까지 어떤 제어 흐름이 발생할지 예측할 수 없습니다.
- 비결정적 자동화 (Non-deterministic Automation): 기존 소프트웨어는 개발자가 명시한 워크플로우를 따르지만, AI 에이전트는 고수준 목표를 받아 동적으로 중간 단계를 결정하고 도구를 호출합니다. 이로 인해 도달 가능한 상태 (reachable states) 를 추론하거나 시스템 안전성을 형식적으로 검증하기가 매우 어렵습니다.
- 기존 보안 메커니즘의 부적합: 기존 보안 (예: 샌드박싱, Same-Origin Policy) 은 인간의 행동 속도와 의도를 전제로 설계되었습니다. 그러나 에이전트는 기계 속도로 권한을 행사하며, 인간이 인지하지 못하는 사이에 대량으로 작업을 수행할 수 있어 새로운 보안 메커니즘이 필요합니다.
- 새로운 공격 표면 (Attack Surfaces): 간접 프롬프트 인젝션 (Indirect Prompt Injection), 혼란된 부하직 (Confused Deputy) 취약점, 다중 에이전트 간 연쇄 실패 (Cascading Failures) 등 기존 소프트웨어에는 없던 새로운 위협이 등장했습니다.
2. 방법론 (Methodology)
저자들은 퍼플렉시티의 실제 운영 경험과 기존 연구 문헌을 종합하여 다음과 같은 분석 프레임워크를 적용했습니다.
- CIA 삼각형 기반 위협 분석: 기밀성 (Confidentiality), 무결성 (Integrity), 가용성 (Availability) 측면에서 에이전트 시스템의 취약점을 분석했습니다.
- 공격 표면 매핑: 도구 (Tools), 커넥터 (Connectors), 호스팅 경계, 다중 에이전트 조정 (Multi-agent coordination) 등 시스템의 각 계층에서 발생할 수 있는 공격 경로를 식별했습니다.
- 방어 심층화 (Defense-in-Depth) 접근: 단일 방어 메커니즘의 한계를 인정하고, 입력 수준, 모델 수준, 실행 모니터링 수준으로 구성된 계층적 방어 전략을 제안했습니다.
- 실제 사례 분석: OpenClaw 와 같은 오픈 소스 에이전트 플랫폼의 아키텍처를 분석하여 구체적인 취약점 (CVE-2026-25253 등) 을 도출했습니다.
3. 주요 기여 (Key Contributions)
가. 위협 및 취약점의 체계적 분류
- 간접 프롬프트 인젝션: 에이전트가 신뢰할 수 없는 웹 페이지나 이메일을 읽을 때, 악의적인 지시문이 포함되어 에이전트의 행동을 조작하는 공격.
- 혼란된 부하직 (Confused Deputy): 권한이 낮은 외부 에이전트가 권한이 높은 내부 에이전트를 속여 사용자의 의도와 다른 민감한 작업을 수행하게 하는 취약점.
- 다중 에이전트 시스템의 위험: 에이전트 간 신뢰 경계가 모호해져 권한 상승 (Privilege Escalation) 이 발생하거나, 하나의 구성 요소 실패가 전체 파이프라인에 연쇄적으로 전파되는 문제.
나. 3 단계 방어 심층 전략 제안
- 입력 수준 방어 (Input-Level): 악성 프롬프트 탐지, 콘텐츠 제거, 'Spotlighting' 및 'Sandwiching' 기법 등을 통해 모델에 입력되기 전에 공격을 차단. (단, 오탐지율과 성능 비용이 큰 과제)
- 모델 수준 방어 (Model-Level): 역할 (Role) 계층 구조 (System > User > Assistant) 를 강화하여 모델이 하위 권한의 지시를 무시하도록 훈련. 그러나 이는 학습된 관례일 뿐 절대적인 보장은 아님.
- 실행 모니터링 및 결정론적 최후의 방어선 (Deterministic Last Line of Defense):
- 샌드박스 실행: 에이전트를 격리된 환경에서 실행.
- 결정론적 정책 강제: LLM 의 추론에 의존하지 않고, 정해진 규칙 (Allowlist/Blocklist, 속도 제한, 정규식 검증) 으로 금지된 행동을 물리적으로 차단.
- CaMeL 프레임워크: 신뢰할 수 있는 사용자 쿼리만 처리하는 '권한 부여 LLM(P-LLM)'과 신뢰할 수 없는 데이터를 처리하는 '격리 LLM(Q-LLM)'을 분리하여 제어 흐름과 데이터 흐름을 분리하는 아키텍처 제안.
다. 표준 및 연구 방향 제시
- 동적 벤치마크 개발: 정적 테스트가 아닌, 적응형 적대적 공격 (Adaptive Adversaries) 을 시뮬레이션하는 동적 평가 기준 필요.
- 접근 제어 모델: RBAC(역할 기반 접근 제어) 와 위험 적응형 접근 제어 (Risk-adaptive) 를 결합한 새로운 에이전트 전용 권한 관리 모델 제안.
- 인간 - 에이전트 거버넌스: 사용자의 피로도를 고려한 '위험 인식 자율성 (Risk-aware Autonomy)' 모델 개발 필요.
4. 결과 및 시사점 (Results & Significance)
- 현실적 평가: 현재 입력 탐지나 모델 수준의 방어만으로는 충분하지 않으며, 결정론적 (Deterministic) 인 최후의 방어선이 반드시 포함되어야 함을 강조했습니다.
- 아키텍처의 중요성: 모델의 능력뿐만 아니라 도구 선택 로직, 워크플로우 조정, 호스팅 환경 (클라우드 vs 온프레미스) 이 보안에 결정적인 영향을 미친다는 점을 규명했습니다.
- 정책 제안: NIST 와 CAISI 에게 에이전트 시스템용 '계층적 방어 참조 아키텍처'와 '다중 에이전트 보안 가이드라인' 개발을 권고했습니다.
5. 결론 (Conclusion)
이 논문은 AI 에이전트 보안이 단순한 모델 튜닝의 문제가 아니라, 시스템 아키텍처, 실행 환경, 정책 제어를 아우르는 종합적인 접근이 필요함을 강조합니다. 특히, 확률적 (Probabilistic) 인 LLM 의 특성을 보완하기 위해 결정론적 (Deterministic) 인 보안 계층을 필수적으로 도입하고, 다중 에이전트 환경에서의 신뢰와 권한 관리를 위한 새로운 표준이 시급함을 주장합니다. 이는 AI 에이전트가 실제 비즈니스 환경에 안전하게 배포되기 위한 핵심적인 로드맵을 제공합니다.