Defensible Design for OpenClaw: Securing Autonomous Tool-Invoking Agents

Each language version is independently generated for its own context, not a direct translation.

🤖 1. 문제 상황: "무조건 믿고 일하는 AI 비서"

지금까지의 AI(챗봇) 는 사용자의 질문에 답변만 했지만, '오픈클로' 같은 새로운 AI 비서는 다릅니다.
이들은 사용자의 말만 듣고 컴퓨터 파일을 열거나, 웹사이트를 돌아다니고, 프로그램을 설치하고, 이메일을 보내는 등 실제 행동을 취합니다.

🚨 왜 위험할까요? (4 가지 위험 요소)
이 비서가 가진 4 가지 특징이 합쳐져 큰 문제를 일으킵니다.

의심스러운 입력을 믿음 (프롬프트 인젝션):
- 비유: 비서가 인터넷에서 가져온 글이나 이메일을 읽는데, 그 글 속에 **"사용자가 모르게 은행 계좌를 이체해라"**라는 숨겨진 지시가 숨어 있다면? 비서는 그것을 진짜主人的 명령인 줄 알고 실행해 버립니다.
잘못된 판단으로 실수 (해로운 오작동):
- 비유: 사용자가 "오래된 파일 정리해줘"라고 했을 때, 비서가 "오래된" 기준을 잘못 이해해서 중요한 업무 문서까지 다 지워버리는 경우입니다. 해커가 없어도 비서 스스로 실수를 저지를 수 있습니다.
나쁜 친구를 들이는 것 (확장성 위험):
- 비유: 비서의 능력을 늘리기 위해 '플러그인'이나 '스킬'을 설치합니다. 그런데 이 중 하나가 해커가 만든 가짜 앱이라면? 비서는 그 앱을 통해 내 컴퓨터 전체를 해커에게 열어주는 꼴이 됩니다.
방어막이 약한 집 (배포 취약점):
- 비유: 비서가 일하는 컴퓨터(시스템) 문이 잠기지 않았거나, 비밀번호가 단순하다면? 해커가 비서에게 접근해서 비서 이름으로 모든 일을 시킬 수 있습니다.

🛡️ 2. 해결책: "튼튼한 안전장치를 갖춘 비서" (방어적 설계)

이 논문은 단순히 "AI 가 똑똑해지길 기다리는 것"이 아니라, 시스템을 처음부터 안전하게 설계해야 한다고 말합니다. 이를 위해 4 가지 핵심 원칙을 제안합니다.

① 최소 권한의 원칙 (Least Privilege)

비유: 비서를 고용할 때, "집 전체를 다 열 수 있는 열쇠"를 주는 대신, **"오늘 필요한 방 한 칸만 열 수 있는 임시 열쇠"**만 줍니다.
효과: 비서가 실수를 하거나 해커에게 속아 넘어가도, 피해를 입는 범위가 그 방 한 칸으로 제한됩니다.

② 격리된 작업 공간 (Runtime Isolation)

비유: 비서가 일하는 공간을 유리벽으로 된 작은 방으로 만듭니다. 비서가 그 방 안에서 실수하거나 해킹을 당해도, 그 유리벽 때문에 내 집의 다른 방(개인 정보, 중요한 데이터) 에는 영향을 주지 못합니다.
효과: 한 부분이 망가져도 전체 시스템이 무너지지 않습니다.

③ 엄격한 확장 관리 (Extension Governance)

비유: 비서가 새로운 도구(플러그인) 를 설치할 때, **"이 도구가 누구 것이며, 무엇을 할 수 있는지"**를 철저히 검사하는 보안 검색대를 통과하게 합니다.
효과: 해커가 만든 나쁜 도구가 비서의 손에 들어오는 것을 막습니다.

④ 철저한 기록과 감시 (Auditability)

비유: 비서가 무엇을 했는지, 왜 그랬는지 모든 행동을 CCTV 로 녹화하고 로그로 남깁니다.
효과: 문제가 생겼을 때 "누가, 언제, 왜 이런 실수를 했는지"를 바로 찾아낼 수 있어 책임을 묻고 재발을 막을 수 있습니다.

🔬 3. 앞으로의 연구 방향: "안전한 AI 비서를 만드는 길"

저자들은 이 원칙들을 실제로 적용하기 위해 다음과 같은 연구가 필요하다고 제안합니다.

시험장 만들기: 해커가 공격하거나 비서가 실수할 수 있는 상황을 가정한 가상 훈련장을 만들어 AI 의 안전성을 테스트해야 합니다.
명확한 규칙 설정: AI 가 "문서 정리해줘"라는 모호한 말을 들었을 때, 어떤 파일까지 건드릴 수 있는지를 자동으로 판단하고 제한하는 시스템을 개발해야 합니다.
플러그인 인증: 새로운 도구를 설치할 때 신원 확인과 안전성 검증을 자동화하는 시스템을 만들어야 합니다.
사람의 개입: AI 가 위험한 행동을 하려 할 때, 사람이 최종 확인을 하도록 자동으로 멈추게 하는 시스템을 만들어야 합니다.

💡 요약

이 논문은 **"AI 가 똑똑해지면 무조건 좋은 게 아니다"**라고 말합니다. AI 가 내 컴퓨터를 마음대로 다룰 수 있게 된다면, 그 AI 는 매우 위험한 존재가 될 수 있습니다.

따라서 우리는 AI 의 지능만 높이는 것이 아니라, AI 가 일을 할 때 지켜야 할 '안전 규칙'과 '방어막'을 처음부터 설계해야 합니다. 마치 자율주행 자동차를 만들 때 단순히 '빠르게 달리는 것'만 중요하지 않고, '브레이크와 안전벨트'가 필수적인 것과 같은 이치입니다.

이 논문의 목표는 바로 AI 비서가 우리 삶을 편리하게 해주는 도구가 되되, 우리를 해치지 않도록 안전하게 만드는 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

OpenClaw 와 같은 **환경 상호작용형 에이전트 (Environment-interactive Agents)**는 텍스트 생성을 넘어 웹 브라우징, 파일 조작, 외부 도구 호출, OS 리소스 제어 등 실제 운영 환경에서 자율적으로 행동할 수 있습니다. 이러한 에이전트는 생산성을 크게 향상시키지만, **기본적으로 보안이 취약 (Insecure by default)**합니다.

근본 원인: 에이전트는 신뢰할 수 없는 입력 (웹페이지, 문서, 스크린샷 등), 자율적 행동, 확장성 (플러그인/스킬), 그리고 특권적인 시스템 접근 권한을 단일 실행 루프 내에서 결합합니다.
주요 위험: 이러한 결합은 프롬프트 인젝션 (Prompt Injection), 해로운 오작동 (Harmful Misoperation), 악성 확장 프로그램, 그리고 일반적인 배포 취약점이 서로 상호작용하여 시스템 전체를 위협하는 복합적인 공학적 문제로 이어집니다.
현재의 한계: 기존 접근 방식은 개별 취약점을 패치하거나 모델의 추론 능력 개선에 집중하는 경향이 있으나, 이는 시스템 아키텍처 차원의 근본적인 보안 결함을 해결하지 못합니다.

2. 방법론 (Methodology)

저자들은 OpenClaw 를 개별 사례가 아닌 더 넓은 범주의 에이전트 시스템의 대표 사례로 간주하고, 이를 소프트웨어 공학적 문제로 재정의하여 방어적 설계 (Defensible Design) 프레임워크를 제안합니다.

위험 분류 체계 (Risk Taxonomy) 개발: 에이전트의 실행 흐름 (입력 수집 $\rightarrow$ 컨텍스트 구성 $\rightarrow$ 실행 $\rightarrow$ 배포) 에 따라 4 가지 주요 위험 클래스를 정의했습니다.
보안 공학 원칙 (Secure Engineering Principles) 도출: 각 위험 클래스에 대응하는 4 가지 핵심 설계 원칙을 제시했습니다.
연구 의제 (Research Agenda) 수립: 이론적 원칙을 실제 구현 가능한 공학적 과제로 전환하기 위한 구체적인 연구 방향을 제시했습니다.

3. 주요 기여 (Key Contributions)

A. 위험 분류 체계 (Risk Taxonomy)

에이전트 시스템의 공격 표면을 4 가지 범주로 분류하고, 각 단계별 실패 사례를 분석했습니다.

프롬프트 인젝션 (Prompt Injection): 웹페이지, 문서, 이미지 등에 숨겨진 지시가 사용자의 의도와 경쟁하여 에이전트의 제어 흐름을 조작하는 것.
해로운 오작동 (Harmful Misoperation): 공격자가 없더라도, 모호하거나 불완전한 사용자 의도를 해석하는 과정에서 에이전트가 원치 않는 파괴적 행동 (파일 삭제, 잘못된 메시지 전송 등) 을 수행하는 것.
확장 공급망 위험 (Extension Supply-Chain Risk): 스킬, 플러그인, 도구 래퍼 등을 통해 악성 로직이 에이전트 스택에 유입되어 신뢰 컴퓨팅 베이스 (TCB) 를 확장하는 것.
배포 취약점 (Deployment Vulnerabilities): 에이전트 런타임이 가진 기존 소프트웨어 취약점 (약한 인증, 노출된 엔드포인트, 불충분한 격리 등) 이 에이전트의 자율적 행동 능력과 결합되어 실제 시스템 침해로 이어지는 것.

B. 보안 공학 원칙 (Secure Engineering Principles)

위험을 완화하기 위한 4 가지 핵심 설계 원칙을 제안했습니다.

최소 권한 (Least Privilege): 에이전트가 현재 작업에 필요한 최소한의 권한과 리소스만 부여받아야 함. 불확실한 상황에서도 권한이 확장되지 않도록 제한.
런타임 격리 (Runtime Isolation): 세션, 도구, 확장 프로그램 간의 격리 경계를 명확히 하고, 비밀 정보 (Secrets) 를 에이전트의 기본 컨텍스트에서 분리하여 관리.
확장 거버넌스 (Extension Governance): 모든 확장 프로그램의 출처 (Provenance), 신뢰성, 권한 부여를 명시적으로 검증하고 관리하는 메커니즘 도입.
감사 가능성 (Auditability): 에이전트의 의사결정 경로, 사용된 권한, 외부 구성 요소의 영향을 추적 가능한 형태로 기록하여 사고 대응 및 책임 소재 규명을 가능하게 함.

C. 연구 의제 (Research Agenda)

이론적 원칙을 실현하기 위한 4 가지 구체적인 연구 방향을 제시했습니다.

평가 인프라 (Evaluation Infrastructure): 혼합 신뢰 입력, 모호한 작업, 실제 권한 경계를 포함한 재현 가능한 벤치마크 및 회귀 테스트 체계 구축.
권한 아키텍처 (Permission Architecture): 자연어 명령을 경계 있는 행동 (Bounded Actions) 으로 매핑하고, 실행 전/중 권한을 중재하는 정책 기반 구조 설계.
확장 거버넌스 (Extension Governance): 서명된 매니페스트, 출처 검증, 권한 선언 및 취소 (Revocation) 를 통한 플러그인/스킬 생태계 관리 체계 정립.
적응형 감독 및 추적 (Adaptive Oversight & Telemetry): 고위험 행동 시 인간 개입을 트리거하고, 모든 실행 흔적 (Attributable Traces) 을 기록하여 사고 조사 및 학습을 지원하는 메커니즘.

4. 결과 및 시사점 (Results & Significance)

이 논문은 구체적인 실험 결과보다는 설계 프레임워크와 이론적 체계를 제시하는 데 중점을 두었습니다.

패러다임 전환: 에이전트 보안을 '모델의 안전성'이나 '개별 버그 수정'의 문제가 아닌, 시스템 아키텍처와 배포 관행의 공학적 문제로 재정의했습니다.
실용적 가이드라인: OpenClaw 와 같은 에이전트 개발자가 '최소 권한', '격리', '거버넌스', '감사'를 설계 단계부터 적용할 수 있는 청사진을 제공합니다.
생태계적 접근: 단일 에이전트뿐만 아니라 플러그인, 스킬, 커뮤니티, 배포 환경이 상호작용하는 전체 생태계의 보안 위험을 포괄적으로 다룹니다.
미래 지향성: 자율 에이전트가 기업 및 중요 인프라에 도입될 때 발생할 수 있는 데이터 유출, 작업 흐름 파괴, 권한 남용 등의 위험을 선제적으로 방지하기 위한 표준을 마련합니다.

5. 결론

OpenClaw 와 같은 자율 도구 호출 에이전트는 강력한 기능을 가지고 있지만, 기본적으로 보안이 취약합니다. 본 논문은 이러한 에이전트를 안전하게 배포하기 위해서는 모델의 성능 향상보다는 **방어적 설계 (Defensible Design)**가 필수적임을 강조합니다. 제안된 위험 분류, 공학 원칙, 그리고 연구 의제는 자율 에이전트 시스템이 실제 운영 환경에서 견고하고 통제 가능하게 (Robust and Governable) 작동할 수 있는 토대를 제공합니다.