Toward Securing AI Agents Like Operating Systems

원저자: Lukas Pirch, Micha Horlboge, Patrick Großmann, Syeda Mahnur Asif, Klim Kireev, Thorsten Holz, Konrad Rieck

게시일 2026-05-15✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Lukas Pirch, Micha Horlboge, Patrick Großmann, Syeda Mahnur Asif, Klim Kireev, Thorsten Holz, Konrad Rieck

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

상상해 보세요. '에이전트'라는 이름의 초지능적이고 매우 열정적인 개인 비서를 고용했다고요. 이 비서는 당신의 이메일을 읽고, 일정을 관리하며, 비행기를 예약하고, 심지어 당신을 위해 코드까지 작성할 수 있습니다. 잠을 자지 않는 마법 같은 직원을 고용한 것과 같습니다.

하지만 함정이 있습니다. 당신은 이 직원에게 당신의 집 전체, 은행 계좌, 그리고 일기의 열쇠를 모두 넘겨주었습니다. 만약 교활한 도둑이 이 비서를 속여 당신이 마치 당신인 것처럼 믿게 하거나, 뒷문을 열도록 설득한다면, 도둑은 모든 것을 손에 넣게 됩니다.

이 논문이 다루는 핵심 문제가 바로 이것입니다. 저자들은 우리가 이러한 AI 에이전트를 마치 완전히 새로운 마법 생물처럼 구축하고 있다고 주장하지만, 실제로는 이를 운영체제(컴퓨터를 구동하는 소프트웨어, 예를 들어 Windows 나 macOS)처럼 취급해야 한다고 말합니다.

다음은 그들의 발견 사항을 간단한 비유를 통해 정리한 것입니다:

1. 핵심 아이디어: 에이전트는 운영체제다

저자들은 말합니다: "AI 를 단순한 채팅봇으로 생각하지 마세요. 당신의 디지털 생활을 구동하는 OS로 생각하세요."

AI(LLM) 컴퓨터에서 사용자가 명령을 입력합니다. AI 에이전트에서는 대규모 언어 모델 (LLM, '두뇌') 이 명령을 입력합니다. 하지만 인간 사용자가 피싱 이메일에 속아 넘어질 수 있듯이, AI 도 '탈옥' 프롬프트에 속아 넘어질 수 있습니다.
도구들은 시스템 호출이다: 컴퓨터에서 '인쇄'를 클릭하면 OS 가 권한이 있는지 확인합니다. AI 가 '이메일 보내기'를 원할 때, 그것은 도구입니다. 이 논문은 이러한 도구들이 자유로운 명령이 아니라 엄격한 시스템 호출처럼 취급되어야 한다고 주장합니다.
런타임은 커널이다: 실제로 코드를 실행하는 소프트웨어 부분을 '커널'이라고 합니다. 안전한 컴퓨터에서 커널은 boss 역할을 합니다. 누가 무엇을 건드릴지 결정합니다. 현재 AI 에이전트에서 '커널'은 종종 너무 관대하여 '사용자'(AI) 가 위험하더라도 원하는 대로 하도록 내버려 둡니다.

2. 문제: '오픈 하우스' 파티

이 논문은 OpenClaw 와 그 일가들과 같은 인기 있는 AI 에이전트들을 살펴보고, 이들이 누구나 들어와 아무거나 만질 수 있는 오픈 하우스처럼 구축되어 있음을 발견했습니다.

벽이 없다: 안전한 컴퓨터에서는 서로 다른 프로그램들이 격리되어 있습니다. 바이러스가 계산기 앱에 감염되더라도 은행 파일을 읽을 수는 없습니다. 하지만 이러한 AI 에이전트에서는 '계산기'(도구) 와 '은행 파일'(메모리) 이 모두 같은 방에 있습니다. AI 가 혼란에 빠지면 실수로 (또는 악의적으로) 이들을 섞을 수 있습니다.
'나를 믿어'라는 오류: 이러한 에이전트들은 AI 가 '기억'하여 안전을 지키도록 의존합니다. '파일을 삭제하지 마라'와 같은 규칙이 있지만, 이는 평범한 영어로 작성되어 있을 뿐입니다. 해커가 AI 에게 속임수를 속삭이면, AI 는 규칙을 잊어버립니다. 마치 경비원에게 경비를 서게 하되 "단순히 당신의 최선의 판단을 활용하세요"라고 말하는 것과 같습니다.
'제 3 자' 위험: 이러한 에이전트들은 '기술'(앱과 같은) 을 설치할 수 있게 합니다. 은행 계좌에 비밀스러운 뒷문이 숨겨져 있는 '날씨 앱'을 다운로드할 수 있다고 상상해 보세요. 이 논문은 이러한 에이전트들 중 많은 부분이 안전성을 확인하지 않은 채 이러한 기술을 설치하도록 허용하고 있음을 발견했습니다.

3. 실험: 에이전트 깨뜨리기

연구진은 네 가지 인기 있는 AI 에이전트를 취해, modest 한 기술 수준의 해커처럼 행동하며 이를 깨뜨려 보았습니다. 그들은 천재가 될 필요가 없었습니다. 단지 '집'이 어떻게 지어졌는지 알면 충분했습니다.

그들이 발견한 것:

OpenClaw(순수한 에이전트) 가장 인기 있는 것이었습니다. 연구진이 시도한 모든 공격에 취약했습니다. 앞문, 뒷문, 창문을 모두 활짝 열어둔 것과 같았습니다.
IronClaw(보안 에이전트) 이 에이전트는 더 안전하게 하려고 노력했습니다. 일부 도구를 '샌드박스'(집의 나머지와 접촉할 수 없는 유리 상자) 에 넣었습니다. 더 나았지만, 연구진은 여전히 이를 속이거나 유리를 깨는 방법을 찾았습니다.
Nanobot(최소화된 에이전트) 이 에이전트는 코드가 적을수록 버그도 적을 것이라는 희망으로 매우 적은 코드를 가지고 있었습니다. 하지만 작은 코드베이스임에도 불구하고 데이터를 분리하는 데 필요한 기본적인 '벽'이 부족했습니다.
NemoClaw(래퍼 에이전트) 이 에이전트는 전체 에이전트를 안전한 컨테이너 (화물 컨테이너와 같은) 안에 넣었습니다. 깨뜨리기 가장 어려웠지만, 연구진은 여전히 속을 엿보거나 속이는 방법을 찾았습니다.

놀라운 결과: 심지어 '보안' 버전조차 한 사용자가 다른 사용자의 개인 메모를 읽는 것을 막거나, 에이전트가 낯선 사람에게 메시지를 보내는 것을 막는 것과 같은 기본적인 것들에서 실패했습니다.

4. 해결책: 과거에서 빌리기

이 논문의 주요 결론은 간단합니다: 이 문제를 해결하기 위해 새로운 마법을 발명할 필요는 없습니다. 단지 50 년간 알고 있던 보안 규칙을 적용하면 됩니다.

운영체제는 이미 이러한 정확한 문제들을 해결했습니다. 저자들은 이러한 올드스쿨 규칙을 AI 에 적용할 것을 제안합니다:

격리: 모든 도구를 별도의 유리 상자 (샌드박스) 에 넣어 명시적으로 허용되지 않는 한 다른 도구나 개인 파일에 접근하지 못하게 하세요.
최소 권한: 에이전트가 이메일을 읽을 수 있다고 해서 반드시 그렇게 해야 하는 것은 아닙니다. 현재 수행 중인 특정 작업에 필요한 열쇠만 부여하세요.
강화된 로깅: 에이전트가 수행하는 모든 일을 기록하되, 에이전트가 이러한 기록을 삭제하거나 변경하지 못하게 하세요 (변조 방지 보안 카메라와 같습니다).
엄격한 경계: AI 가 무엇이 안전한지 결정하게 하지 마세요. '커널'(시스템) 이 규칙을 강제해야 하며, AI 의 '두뇌'가 아닙니다.

요약

이 논문은 AI 에이전트가 현재 통제되지 않은 야생의 개척지처럼 구축되어 있다고 주장합니다. 민감한 데이터와 신뢰할 수 없는 지시가 섞여 있기 때문에 강력하지만 위험합니다.

저자들은 말합니다: "안전해지기 위해 AI 를 더 '똑똑하게' 만들려고 하지 마세요. 대신 이를 둘러싼 시스템을 안전한 운영체제처럼 구축하세요." 우리가 AI 를 엄격한 보안 경비원 (OS) 에 의해 감시되고 제한되어야 하는 사용자로 취급한다면, 이러한 강력한 도구들을 가정과 비즈니스에서 안전하게 사용할 수 있습니다.

핵심 메시지: 우리는 우리 삶의 마스터 키를 가진 디지털 직원들을 구축하고 있지만, 아직 자물쇠, 울타리, 보안 경비원은 구축하지 못했습니다. 수십 년간 이러한 자물쇠를 만들어 온 컴퓨터 보안 전문가들의 설계도를 빌려올 때입니다.

1. 핵심 아이디어: 에이전트는 운영체제다

2. 문제: '오픈 하우스' 파티

3. 실험: 에이전트 깨뜨리기

4. 해결책: 과거에서 빌리기

요약

기술 요약: 운영 체제처럼 AI 에이전트 보안 강화

문제 제기

방법론

주요 기여

결과

중요성 및 주장

Toward Securing AI Agents Like Operating Systems

1. 핵심 아이디어: 에이전트는 운영체제다

2. 문제: '오픈 하우스' 파티

3. 실험: 에이전트 깨뜨리기

4. 해결책: 과거에서 빌리기

요약

기술 요약: 운영 체제처럼 AI 에이전트 보안 강화

문제 제기

방법론

주요 기여

결과

중요성 및 주장

유사한 논문