FERRET: Framework for Expansion Reliant Red Teaming

이 논문은 수평적, 수직적, 메타 확장을 통해 다중 모달 적대적 대화를 생성하고 기존 자동화된 레드 테이밍 접근법보다 우수한 성능을 보이는 'FERRET' 프레임워크를 제안합니다.

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

FERRET: AI 를 위한 '지능적인 보안 테스트' 프레임워크

이 논문은 인공지능 (AI) 이 세상에 나가기 전에, 얼마나 안전한지 확인하는 새로운 방법을 소개합니다. 제목인 FERRET은 "확장에 의존하는 적대적 테스트 프레임워크"라는 뜻인데, 쉽게 말해 **"AI 의 허점을 찾아내는 아주 똑똑한 해커 팀"**이라고 생각하시면 됩니다.

기존의 보안 테스트는 주로 "단순한 질문"을 던져보거나, "미리 정해진 목표"만 가지고 테스트를 했습니다. 하지만 FERRET 는 그보다 훨씬 더 유연하고 창의적입니다.

이 복잡한 개념을 이해하기 쉽게 세 가지 핵심 단계로 나누어, 일상적인 비유로 설명해 드리겠습니다.


🕵️‍♂️ 비유: "치밀한 스파이 훈련"

FERRET 는 AI 를 해킹하려는 스파이 (공격 모델) 가 훈련을 받는 과정과 같습니다. 이 훈련은 크게 세 가지 방식으로 진행됩니다.

1. 수평적 확장 (Horizontal Expansion): "어떤 질문을 던져야 할까?"

  • 기존 방식: "나쁜 짓을 하라고 해!"라고 막연하게 지시하거나, 이미 정해진 질문만 반복합니다.
  • FERRET 의 방식: 스파이는 먼저 **"어떤 질문을 던져야 AI 가 넘어갈까?"**를 스스로 고민합니다.
    • 비유: 마치 도둑이 금고에 들어가기 위해 "어떤 문이 잠겨 있을까?", "어떤 비밀번호가 뚫릴까?"를 스스로 실험해 보는 과정입니다.
    • FERRET 는 과거에 실패한 질문과 성공한 질문을 기억해 두었다가, "이번엔 저렇게 물어보면 될 것 같아!"라고 스스로 질문을 더 잘 만들어냅니다. 이를 수평적 확장이라고 합니다.

2. 수직적 확장 (Vertical Expansion): "대화를 길게 이어가자"

  • 기존 방식: 한 번 질문하고 답을 들으면 끝납니다. (일회성 공격)
  • FERRET 의 방식: 질문을 던진 후, AI 의 답변을 보고 **"아, 이 부분은 약점이 있네!"**라고 생각하며 대화를 이어갑니다.
    • 비유: 도둑이 문을 열려고 시도하다가 잠금장치가 걸려 있으면, "자, 잠금장치를 피하는 다른 방법을 써볼까?"라고 대화 (공격) 를 계속 이어가며 문을 엽니다.
    • 특히 FERRET 는 텍스트 (말) 와 이미지 (사진) 를 섞어서 공격합니다. "이 사진은 위험해 보이는데, 이 설명글을 붙이면 AI 가 혼란스러워하지 않을까?"처럼 텍스트와 이미지를 섞어 더 강력한 공격을 시도합니다.

3. 메타 확장 (Meta Expansion): "새로운 공격 기술을 발명하자"

  • 기존 방식: 이미 알려진 해킹 방법 (예: "너는 나쁜 AI 야"라고 속이기) 만 사용합니다.
  • FERRET 의 방식: 대화 도중 **"지금까지 없던 새로운 해킹 방법"**을 스스로 만들어냅니다.
    • 비유: 도둑이 기존에 쓰던 지렛대만 쓰는 게 아니라, "이건 안 되네? 그럼 이걸 녹여서 새로운 열쇠를 만들어볼까?"라고 즉흥적으로 새로운 도구를 발명하는 것입니다. FERRET 는 대화 중에도 새로운 공격 전략을 발견하고 발전시킵니다.

🧪 실험 결과: "FERRET 가 더 잘한다!"

연구팀은 FERRET 를 기존에 유명한 보안 테스트 도구 (FLIRT, GOAT) 와 비교했습니다.

  1. 더 많은 허점을 찾아냄: FERRET 는 다른 도구들보다 훨씬 더 많은 AI 의 안전하지 않은 부분 (허점) 을 찾아냈습니다.
  2. 다양한 공격: FERRET 는 같은 질문을 반복하지 않고, 텍스트와 이미지를 섞어 다양한 방식으로 공격했습니다.
  3. 단일 대화 vs 대화 연속: FERRET 는 한 번의 질문뿐만 아니라, 여러 번의 대화를 이어가며 AI 를 속이는 데 훨씬 능숙했습니다.

💡 왜 이것이 중요한가요?

지금까지 AI 는 "한 번의 질문"이나 "이미 정해진 목표"로만 테스트받았습니다. 하지만 실제 세상에서는 사람들이 AI 와 오래 대화하거나, 사진과 말을 섞어서 복잡한 상황을 만들기도 합니다.

FERRET 는 이런 복잡하고 실제적인 상황을 미리 시뮬레이션하여, AI 가 개발되어 공개되기 전에 숨겨진 위험을 찾아냅니다.

🛡️ 결론: "악용을 막기 위한 훈련"

이 논문은 AI 를 해킹하는 방법을 알려주는 것처럼 보일 수 있지만, 그 목적은 정반대입니다.

  • 목적: 개발자들이 AI 를 세상에 내놓기 전에, FERRET 라는 '가상의 해커'를 통해 약점을 미리 찾아내고 고쳐서, 실제 해커들이 AI 를 악용하지 못하도록 안전하게 만드는 것입니다.

한 줄 요약:

"FERRET 는 AI 가 세상에 나가기 전에, 스스로 다양한 질문과 그림을 섞어 '가상의 해커'처럼 훈련하며, AI 의 숨겨진 약점을 찾아내어 더 안전하게 만드는 똑똑한 보안 시스템입니다."