Defensible Design for OpenClaw: Securing Autonomous Tool-Invoking Agents

이 논문은 OpenClaw 와 같은 자율 에이전트의 보안 취약점을 제품별 이슈가 아닌 소프트웨어 공학적 문제로 인식하고, 위험 분류 체계와 설계 원칙, 실용적 연구 과제를 제시하여 보안 패치 중심의 접근에서 체계적인 방어적 설계와 견고한 배포 관행으로의 전환을 촉구합니다.

Zongwei Li, Wenkai Li, Xiaoqi Li

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 1. 문제 상황: "무조건 믿고 일하는 AI 비서"

지금까지의 AI(챗봇) 는 사용자의 질문에 답변만 했지만, '오픈클로' 같은 새로운 AI 비서는 다릅니다.
이들은 사용자의 말만 듣고 컴퓨터 파일을 열거나, 웹사이트를 돌아다니고, 프로그램을 설치하고, 이메일을 보내는 등 실제 행동을 취합니다.

🚨 왜 위험할까요? (4 가지 위험 요소)
이 비서가 가진 4 가지 특징이 합쳐져 큰 문제를 일으킵니다.

  1. 의심스러운 입력을 믿음 (프롬프트 인젝션):
    • 비유: 비서가 인터넷에서 가져온 글이나 이메일을 읽는데, 그 글 속에 **"사용자가 모르게 은행 계좌를 이체해라"**라는 숨겨진 지시가 숨어 있다면? 비서는 그것을 진짜主人的 명령인 줄 알고 실행해 버립니다.
  2. 잘못된 판단으로 실수 (해로운 오작동):
    • 비유: 사용자가 "오래된 파일 정리해줘"라고 했을 때, 비서가 "오래된" 기준을 잘못 이해해서 중요한 업무 문서까지 다 지워버리는 경우입니다. 해커가 없어도 비서 스스로 실수를 저지를 수 있습니다.
  3. 나쁜 친구를 들이는 것 (확장성 위험):
    • 비유: 비서의 능력을 늘리기 위해 '플러그인'이나 '스킬'을 설치합니다. 그런데 이 중 하나가 해커가 만든 가짜 앱이라면? 비서는 그 앱을 통해 내 컴퓨터 전체를 해커에게 열어주는 꼴이 됩니다.
  4. 방어막이 약한 집 (배포 취약점):
    • 비유: 비서가 일하는 컴퓨터(시스템) 문이 잠기지 않았거나, 비밀번호가 단순하다면? 해커가 비서에게 접근해서 비서 이름으로 모든 일을 시킬 수 있습니다.

🛡️ 2. 해결책: "튼튼한 안전장치를 갖춘 비서" (방어적 설계)

이 논문은 단순히 "AI 가 똑똑해지길 기다리는 것"이 아니라, 시스템을 처음부터 안전하게 설계해야 한다고 말합니다. 이를 위해 4 가지 핵심 원칙을 제안합니다.

① 최소 권한의 원칙 (Least Privilege)

  • 비유: 비서를 고용할 때, "집 전체를 다 열 수 있는 열쇠"를 주는 대신, **"오늘 필요한 방 한 칸만 열 수 있는 임시 열쇠"**만 줍니다.
  • 효과: 비서가 실수를 하거나 해커에게 속아 넘어가도, 피해를 입는 범위가 그 방 한 칸으로 제한됩니다.

② 격리된 작업 공간 (Runtime Isolation)

  • 비유: 비서가 일하는 공간을 유리벽으로 된 작은 방으로 만듭니다. 비서가 그 방 안에서 실수하거나 해킹을 당해도, 그 유리벽 때문에 내 집의 다른 방(개인 정보, 중요한 데이터) 에는 영향을 주지 못합니다.
  • 효과: 한 부분이 망가져도 전체 시스템이 무너지지 않습니다.

③ 엄격한 확장 관리 (Extension Governance)

  • 비유: 비서가 새로운 도구(플러그인) 를 설치할 때, **"이 도구가 누구 것이며, 무엇을 할 수 있는지"**를 철저히 검사하는 보안 검색대를 통과하게 합니다.
  • 효과: 해커가 만든 나쁜 도구가 비서의 손에 들어오는 것을 막습니다.

④ 철저한 기록과 감시 (Auditability)

  • 비유: 비서가 무엇을 했는지, 왜 그랬는지 모든 행동을 CCTV 로 녹화하고 로그로 남깁니다.
  • 효과: 문제가 생겼을 때 "누가, 언제, 왜 이런 실수를 했는지"를 바로 찾아낼 수 있어 책임을 묻고 재발을 막을 수 있습니다.

🔬 3. 앞으로의 연구 방향: "안전한 AI 비서를 만드는 길"

저자들은 이 원칙들을 실제로 적용하기 위해 다음과 같은 연구가 필요하다고 제안합니다.

  1. 시험장 만들기: 해커가 공격하거나 비서가 실수할 수 있는 상황을 가정한 가상 훈련장을 만들어 AI 의 안전성을 테스트해야 합니다.
  2. 명확한 규칙 설정: AI 가 "문서 정리해줘"라는 모호한 말을 들었을 때, 어떤 파일까지 건드릴 수 있는지를 자동으로 판단하고 제한하는 시스템을 개발해야 합니다.
  3. 플러그인 인증: 새로운 도구를 설치할 때 신원 확인과 안전성 검증을 자동화하는 시스템을 만들어야 합니다.
  4. 사람의 개입: AI 가 위험한 행동을 하려 할 때, 사람이 최종 확인을 하도록 자동으로 멈추게 하는 시스템을 만들어야 합니다.

💡 요약

이 논문은 **"AI 가 똑똑해지면 무조건 좋은 게 아니다"**라고 말합니다. AI 가 내 컴퓨터를 마음대로 다룰 수 있게 된다면, 그 AI 는 매우 위험한 존재가 될 수 있습니다.

따라서 우리는 AI 의 지능만 높이는 것이 아니라, AI 가 일을 할 때 지켜야 할 '안전 규칙'과 '방어막'을 처음부터 설계해야 합니다. 마치 자율주행 자동차를 만들 때 단순히 '빠르게 달리는 것'만 중요하지 않고, '브레이크와 안전벨트'가 필수적인 것과 같은 이치입니다.

이 논문의 목표는 바로 AI 비서가 우리 삶을 편리하게 해주는 도구가 되되, 우리를 해치지 않도록 안전하게 만드는 것입니다.