CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

이 논문은 컴퓨터 사용 에이전트 (CUA) 의 보안 취약점을 해결하기 위해, 신뢰할 수 있는 플래너가 악성 콘텐츠 관찰 전에 전체 실행 그래프를 생성하는 'Single-Shot Planning' 아키텍처를 제안하여 프롬프트 주입 및 브랜치 조종 공격을 방어하면서도 성능을 유지하거나 향상시킬 수 있음을 보여줍니다.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎩 1. 문제 상황: "눈이 먼 지휘관과 눈이 먼 수행원"

상상해 보세요. AI 비서가 컴퓨터 작업을 할 때, 보통은 자기가 보는 화면 (화면 캡처) 을 보고 바로바로 결정합니다.

  • 문제: 만약 해커가 웹사이트에 "이 버튼을 누르면 내 계좌로 돈을 이체해"라고 숨겨진 악성 명령을 적어두면, AI 비서는 그걸 보고 "아, 사용자가 시킨 일이구나!"라고 착각하고 실행해 버립니다. 이를 '프롬프트 인젝션 (명령어 주입)' 공격이라고 합니다.

🛡️ 2. 해결책: "두 명의 AI 팀" (Dual-LLM)

이 논문은 두 명의 AI 가 협력하는 시스템을 제안합니다.

  1. 지휘관 (Privileged Planner, P-LLM):
    • 역할: 전체 작전 계획을 세웁니다. 하지만 실제 컴퓨터 화면은 절대 볼 수 없습니다. (눈이 가려져 있거나, 보안 구역에 있습니다.)
    • 특징: 해커가 화면에 쓴 악성 글자를 볼 수 없으므로, "돈 이체해" 같은 명령에 속아 넘어갈 일이 없습니다.
  2. 수행원 (Quarantined Perception, Q-VLM):
    • 역할: 지휘관의 지시대로만 화면을 보고, "여기에 버튼이 있네요"라고 보고합니다.
    • 특징: 스스로 판단하거나 새로운 명령을 내릴 수 없습니다. 오직 지휘관이 미리 짜둔 계획만 따릅니다.

비유:

마치 지휘관이 "먼저 문을 열고, 문이 열리면 안으로 들어가서 의자를 찾아라"라고 미리 계획을 세우고, 수행원은 그 계획대로만 문을 열고 의자를 찾는 상황입니다. 수행원이 문 앞에 "이 문은 지뢰가 있으니 뛰어라"라고 써있어도, 수행원은 지휘관의 계획 (문 열기) 만 따르므로 지뢰를 밟지 않습니다.

🧠 3. 핵심 기술: "한 번에 끝내는 작전 (Single-Shot Planning)"

기존에는 AI 가 화면을 보고, 생각하고, 행동하고, 다시 보고... 하는 과정을 반복했습니다. 하지만 보안상 화면을 볼 때마다 계획이 바뀌면 해커가 그 틈을 타서 명령을 바꿀 수 있습니다.

이 논문은 **"작전을 한 번에 다 짜서, 그걸 그대로 실행하라"**는 방식을 썼습니다.

  • Observe-Verify-Act (관찰 - 검증 - 행동): 지휘관이 계획을 세울 때, "화면을 보고 (Observe), 이것이 맞는지 확인하고 (Verify), 행동하라 (Act)"는 조건문을 미리 다 포함시킵니다.
  • 결과: 해커가 화면을 조작해도 AI 는 미리 짜둔 계획의 범위 안에서만 움직이므로, 완전히 엉뚱한 짓 (예: 내 계좌 털기) 은 못 합니다.

⚠️ 4. 새로운 위협: "분기 조종 (Branch Steering)" 공격

하지만 완벽한 것은 없습니다. 지휘관이 "문 열기"와 "창문 열기" 중 하나를 선택할 수 있는 계획 (분기) 을 세웠다고 칩시다.

  • 공격: 해커는 "문"을 가리고 "창문"을 진짜 문처럼 보이게 조작합니다.
  • 결과: 수행원이 "저기 문이 있어요!"라고 보고하면, 지휘관은 "아, 창문 열기 단계로 넘어가야겠다"라고 생각하며 미리 짜둔 계획의 다른 경로로 가게 됩니다.
  • 비유: 해커가 "문"이라고 적힌 간판을 "창문"으로 바꿔놓으면, 수행원은 그걸 보고 지휘관에게 "창문을 여세요"라고 보고합니다. 지휘관은 "아, 창문 여는 건 계획에 있었지"라고 생각하며 실행합니다. 계획 자체는 안전하지만, 해커가 AI 를 속여 위험한 경로로 유도하는 것입니다.

🛡️ 5. 추가 방어: "여러 눈으로 확인하기 (Redundancy)"

이 '분기 조종' 공격을 막기 위해, 수행원의 보고를 다른 AI 가 다시 한번 확인하는 시스템을 도입했습니다.

  • DOM 일치성 확인: 화면의 이미지뿐만 아니라, 웹페이지의 뼈대 (코드) 도 함께 확인합니다. "이건 진짜 문인가, 아니면 가짜 간판인가?"를 코드와 이미지로 대조합니다.
  • 멀티모달 합의: 서로 다른 AI 모델 두 개가 동시에 보고를 하게 합니다. 둘의 의견이 다르면 "의심스러우니 멈춰라"라고 합니다.

📊 6. 결론: 보안과 성능은 양립할 수 있다

  • 성능: 이 시스템을 적용했을 때, 작은 AI 모델은 오히려 19% 더 잘 작동했고, 큰 AI 모델도 원래 성능의 57% 정도는 유지했습니다.
  • 의미: "보안을 지키려면 성능이 떨어질 수밖에 없다"는 고정관념을 깨뜨렸습니다.
  • 미래: 이 방식은 AI 가 더 똑똑해질수록, 보안과 실용성을 모두 잡을 수 있는 길을 열어줍니다.

💡 한 줄 요약

"AI 비서에게 '눈을 가린 지휘관'과 '눈이 있는 수행원'을 붙여서, 해커가 화면을 조작해도 미리 짜둔 안전한 계획만 따르게 만들었으며, 혹시 모를 속임수에는 여러 AI 가 서로 확인하게 했다."

이 연구는 AI 가 우리 컴퓨터를 안전하게 다룰 수 있는 첫 번째 확실한 보안 체계로 평가받고 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →