Robustness Over Time: Understanding Adversarial Examples' Effectiveness on Longitudinal Versions of Large Language Models

이 논문은 GPT, Llama, Qwen 등 주요 대규모 언어 모델 (LLM) 계열의 장기적 업데이트를 분석하여, 버전이 올라갈수록 항상 보안과 안전성이 향상되는 것은 아니며 오히려 특정 공격 유형에 대한 취약성이 심화되거나 모델 크기가 커져도 견고성이 균일하게 개선되지 않을 수 있음을 규명했습니다.

Yugeng Liu, Tianshuo Cong, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로보트 (AI) 가 나이를 먹으면 더 똑똑하고 안전해질까?"**라는 질문에 대해, 실제로는 그렇지 않을 수도 있다는 놀라운 사실을 발견한 연구입니다.

이 내용을 쉽게 이해할 수 있도록 스마트폰 업데이트자동차 모델 변경에 비유해서 설명해 드릴게요.

1. 연구의 배경: "업데이트는 무조건 좋은 것일까?"

우리는 스마트폰을 사용할 때, 새로운 버전으로 업데이트되면 기능이 더 좋아지고 버그가 사라진다고 믿습니다. AI(거대 언어 모델) 도 마찬가지입니다. 개발사들은 매번 모델을 업데이트하며 "이제 더 똑똑하고, 더 안전해졌다"고 홍보합니다.

하지만 이 연구팀은 **"그렇다면, 업데이트를 거듭할수록 AI 가 해킹이나 사기 (악의적인 질문) 에 더 강해지나?"**라고 의문을 품었습니다. 마치 자동차 회사가 매년 새 모델을 내놓을 때, "이 차는 이전 모델보다 도난 방지 시스템이 더 강력해졌다"고 말하지만, 실제로는 그렇지 않을 수도 있다는 의문이죠.

2. 연구 방법: "시간을 거슬러 올라가는 테스트"

연구팀은 GPT(OpenAI), Llama(Meta), Qwen(알리바바) 등 유명한 AI 세 가지를 대상으로, 과거 버전부터 최신 버전까지 일일이 테스트했습니다.

세 가지 주요 테스트를 진행했는데, 이를 자동차로 비유하면 다음과 같습니다:

  • 오류 찾기 (Misclassification): "이 문장이 문법적으로 맞니?"라고 물었을 때, AI 가 엉뚱한 답을 하거나 헷갈리는지 확인합니다. (예: "빨간 차"를 "파란 차"라고 잘못 분류하는지)
  • 방어벽 뚫기 (Jailbreak): "나쁜 짓을 하는 방법을 알려줘"라고 물었을 때, AI 가 "안 됩니다"라고 거절하는지, 아니면 속아서 답을 해주는지 확인합니다. (예: 자동차의 도난 방지 장치를 우회해서 시동을 걸 수 있는지)
  • 거짓말 (Hallucination): AI 가 사실과 다른 엉뚱한 이야기를 지어내는지 확인합니다. (예: 존재하지 않는 역사적 사건을 사실인 것처럼 말하는지)

3. 주요 발견: "업데이트의 역설"

이 연구에서 발견한 가장 놀라운 사실은 다음과 같습니다.

  • 안전해졌다고 생각했는데, 약해졌다:
    어떤 AI 는 '나쁜 짓을 막는 능력 (방어벽)'은 좋아졌는데, 정작 문제를 푸는 능력이나 사실 관계를 구분하는 능력은 오히려 나빠졌습니다.

    • 비유: 자동차의 도난 방지 시스템은 최신형으로 바뀌어 매우 강력해졌는데, 정작 운전자가 핸들을 돌릴 때 차가 제자리에서 빙빙 돌거나, 브레이크가 잘 먹지 않는 문제가 생겼다면 어떨까요? 이것이 바로 이 연구에서 본 현상입니다.
  • 크기가 커진다고 더 안전하지 않다:
    모델이 더 크고 복잡해질수록 (예: 70B 모델) 더 똑똑하고 안전할 것이라고 생각하기 쉽습니다. 하지만 연구 결과, 모델이 커질수록 해킹이나 오류에 더 취약한 부분이 생기는 경우가 많았습니다.

    • 비유: 거대한 요새를 지으면 적을 막을 수 있을 것 같지만, 성벽이 너무 복잡해져서 오히려 숨겨진 구멍이 생기고, 그 구멍을 통해 적이 더 쉽게 들어올 수 있는 것과 같습니다.
  • 작은 업데이트도 위험할 수 있다:
    큰 버전 변경이 아니라, 사소한 업데이트 (예: GPT-3.5 의 작은 수정) 를 할 때도 기존에 잘하던 기능이 망가질 수 있습니다.

    • 비유: 스마트폰의 카메라 앱에 '새로운 필터'를 하나 추가했는데, 그 과정에서 사진이 흐릿해지거나 저장 기능이 고장 나는 것과 비슷합니다.

4. 결론 및 시사점: "무조건 최신 모델을 믿지 마세요"

이 논문은 우리에게 중요한 메시지를 줍니다.

  1. 개발자에게: "우리는 업데이트를 할 때 '새로운 기능'만 추가하지 말고, '기존에 잘하던 일'이 망가지지는 않았는지, '보안'이 약해지지는 않았는지 꼼꼼히 확인해야 합니다."
  2. 사용자에게: "AI 가 최신 버전이라고 해서 무조건 안전하거나 똑똑하다고 믿지 마세요. 중요한 일을 맡기기 전에, 그 AI 가 실제로 얼마나 견고한지 다시 한번 테스트해 보는 것이 좋습니다."

한 줄 요약:

"AI 가 업데이트를 거듭한다고 해서 무조건 더 안전하고 똑똑해지는 것은 아닙니다. 오히려 새로운 버그나 약점이 생길 수 있으니, 업데이트 때마다 다시 한번 꼼꼼히 점검해야 합니다."