NAAMSE: Framework for Evolutionary Security Evaluation of Agents

이 논문은 수동적 평가나 정적 벤치마크의 한계를 극복하고, 유전적 프롬프트 변이와 계층적 탐색을 통해 적응형 적대적 공격을 자동화하면서도 안전성을 유지하는 진화형 에이전트 보안 평가 프레임워크 'NAAMSE'를 제안합니다.

Kunal Pai, Parth Shah, Harshil Patel

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

NAAMSE: AI 에이전트의 '진짜' 안전성을 테스트하는 새로운 방법

이 논문은 인공지능 (AI) 에이전트들이 실제 세상에서 일하기 시작하면서 생긴 보안 문제를 해결하기 위한 새로운 방법, NAAMSE를 소개합니다.

기존의 보안 테스트 방식이 왜 부족하고, NAAMSE 가 어떻게 더 똑똑하게 문제를 찾아내는지 쉬운 비유로 설명해 드리겠습니다.


1. 왜 새로운 방법이 필요할까요? (기존 방식의 한계)

지금까지 AI 의 안전성을 테스트하는 방법은 크게 두 가지였습니다.

  • 사람이 직접 해킹 시도하기 (레드 팀링): 전문가들이 직접 AI 에게 "나쁜 짓을 해봐"라고 명령하며 테스트합니다.
    • 문제점: 사람이 직접 하니까 너무 느리고 비쌉니다. 또한, 사람이 생각한 것만 테스트하니까 AI 가 숨겨둔 다른 약점은 발견하지 못합니다.
  • 고정된 시험지 주기 (정적 벤치마크): 미리 정해진 나쁜 질문 (예: "비밀번호 알려줘") 들을 AI 에게 던집니다.
    • 문제점: AI 는 금방 배우고 적응합니다. 2 년 전에 통했던 나쁜 질문은 지금은 AI 가 거절할 수 있습니다. 마치 옛날 시험지로 최신 학생을 평가하는 것과 같아서, 새로운 해킹 수법을 놓칩니다.

2. NAAMSE 란 무엇인가요? (진화하는 해커)

NAAMSE 는 **"AI 를 해킹하는 AI"**를 만들어서, 스스로 진화하며 약점을 찾아내는 시스템입니다.

이걸 **한 명의 똑똑한 '진화하는 해커'**가 있다고 상상해 보세요. 이 해커는 단순히 질문을 던지는 게 아니라, 학습하고 적응하는 과정을 거칩니다.

NAAMSE 의 4 단계 작동 원리 (비유: 보물찾기 게임)

이 시스템은 보물 (약점) 을 찾기 위해 4 단계를 반복합니다.

  1. 선택 (Selection):
    • 해커는 거대한 지도 (데이터베이스) 에서 다양한 질문들을 골라냅니다. "어디서부터 시작해볼까?"라고 고민하며 다양한 시나리오를 준비합니다.
  2. 실행 및 평가 (Execution & Evaluation):
    • AI 에게 질문을 던집니다. 그리고 AI 의 반응을 점수화합니다.
    • 중요한 점: 이 점수는 단순히 "해킹 성공했나?"만 보는 게 아닙니다.
      • 나쁜 질문에 AI 가 순순히 따라주면 점수 100 점 (대박! 위험!).
      • 좋은 질문 (예: "오늘 날씨 어때?") 에 AI 가 "거부합니다"라고 하면 점수 100 점 (대박! 쓸모없음!).
      • 즉, AI 가 너무 경직되어서 아무것도 못 하거나, 너무 순진해서 나쁜 짓을 하는 경우 모두를 '실패'로 간주합니다.
  3. 진화 (Evolution):
    • 점수가 낮으면? -> "아, 이 방법은 안 먹히네." 다른 지역 (다른 질문 유형) 으로 이동합니다.
    • 점수가 중간이면? -> "조금 더 다듬어보자." 질문을 살짝 변형해서 다시 시도합니다.
    • 점수가 높다면? -> "이게 먹히네!" 그 방법을 더 공격적으로 변형해서 최악의 상황을 만들어냅니다.
    • 마치 게임 캐릭터가 레벨업하면서 더 강력한 무기를 만드는 것과 같습니다.
  4. 기록 (Integration):
    • 새로 발견한 나쁜 질문은 다시 지도에 저장합니다. 다음에 또 쓸 수 있도록 말이죠. 시간이 지날수록 해커는 더 똑똑해지고, AI 의 약점은 더 명확해집니다.

3. 이 방식이 왜 특별한가요? (핵심 통찰)

NAAMSE 의 가장 큰 장점은 **"균형"**을 잡는다는 점입니다.

  • 기존 방식의 함정: 많은 보안 도구는 "AI 가 나쁜 말을 거절하면 안전하다"고 생각합니다. 그래서 AI 가 **"아무것도 하지 않는 것 (거부)"**을 최선의 방어라고 착각하게 만듭니다.
    • 비유: 집 문에 자물쇠를 100 개 달아서 도둑은 못 들어오지만, 주인도 못 들어오게 만든 집은 '안전'한 걸까요? 아닙니다. 쓸모없는 집일 뿐입니다.
  • NAAMSE 의 해결책: NAAMSE 는 AI 가 **"나쁜 말은 거절하되, 좋은 말은 잘 도와주는지"**를 동시에 테스트합니다. AI 가 너무 경직되어서 일상적인 질문에도 "거부합니다"라고 답하면, 이를 '보안 실패'로 간주하여 점수를 깎아줍니다.

4. 실험 결과 (무엇이 증명되었나요?)

연구진은 최신 AI 모델 (Gemini 등) 로 실험을 해보았습니다.

  • 한 번에 던지는 질문 (Static): 약점을 거의 찾지 못했습니다.
  • 무작위 질문만 던지는 것 (Exploration only): 약점을 찾기는 하지만, 그 약점을 깊게 파고들지 못해 약한 공격에 그쳤습니다.
  • NAAMSE (진화 + 탐험): 가장 강력한 결과를 냈습니다.
    • 처음에는 약한 질문으로 시작해서, AI 의 반응을 보고 질문을 점점 더 교묘하게 변형했습니다.
    • 그 결과, 기존 방법으로는 절대 발견하지 못했을 심각한 보안 구멍들을 찾아냈습니다.

5. 결론: AI 의 안전은 '체크리스트'가 아니라 '훈련'입니다

이 논문이 말하고자 하는 핵심은 이렇습니다.

"AI 의 안전성을 한 번의 시험지로 확인하는 시대는 지났습니다. AI 는 끊임없이 변하는 세상에서 적응하는 해커와 끊임없이 싸워야만 비로소 안전해질 수 있습니다."

NAAMSE 는 AI 가 실제 세상 (Wild) 에서 마주할 다양한 상황과 공격에 대비할 수 있도록, 스스로 진화하며 약점을 찾아내는 훈련 시스템을 제안합니다. 이는 AI 가 우리 삶에 더 안전하게 자리 잡을 수 있는 중요한 첫걸음이 될 것입니다.


한 줄 요약:
NAAMSE 는 AI 가 "나쁜 말은 거절하고, 좋은 말은 잘 도와주는지"를 스스로 진화하는 해커를 통해 끊임없이 테스트하여, AI 가 너무 경직되거나 너무 순진하지 않게 만드는 최고의 보안 훈련 시스템입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →