Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

이 논문은 추론 단계에서 수치적 불안정성을 극대화하는 손실 항을 최적화하여 생성된 이미지를 통해 기존 적대적 교란과 구별되는 새로운 방식으로 멀티모달 대규모 언어 모델의 성능을 심각하게 저하시킨다는 사실을 규명했습니다.

Wai Tuck Wong, Jun Sun, Arunesh Sinha

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"멀티모달 대형 언어 모델 (LVLM)"**이라는 최신 AI 기술이 가진 숨겨진 약점을 발견한 연구입니다.

쉽게 말해, **"AI 가 숫자를 계산할 때 생기는 아주 작은 오차들을 이용해, 사람의 눈에는 보이지 않는 방식으로 AI 를 혼란스럽게 만들고 실수를 하게 만든다"**는 내용입니다.

이 복잡한 내용을 일상적인 비유로 설명해 드릴게요.


1. 배경: AI 는 왜 '숫자'에 약할까?

우리가 사용하는 AI(예: 그림을 보고 설명을 해주는 AI) 는 엄청난 양의 데이터를 기억하고 계산을 합니다. 하지만 컴퓨터는 완벽한 숫자를 다룰 수 없어요.

  • 비유: 마치 저울을 생각해 보세요. 아주 미세한 무게 (0.00001g) 를 재야 할 때, 저울이 아주 조금만 흔들려도 결과가 달라질 수 있죠.
  • 현실: AI 는 메모리 효율을 위해 '반정밀도 (half-precision)'라는 방식을 씁니다. 이는 숫자를 조금 더 간략하게 저장하는 건데, 마치 소수점 아래를 잘라버린 계산기처럼 작동해요. 보통은 이 오차가 문제가 안 되지만, 연구자들은 이 '잘라버린 부분'을 공격점으로 삼았습니다.

2. 새로운 공격 방법: "숫자 폭탄" (Numerical Instability)

기존의 AI 해킹 방법은 그림에 눈에 보이는 노이즈를 넣거나, AI 가 틀리게 답하도록 유도하는 것이었습니다. 하지만 이 논문은 완전히 다른 길을 갔습니다.

  • 기존 해킹 (Adversarial Attack): 그림에 보이지 않는 점을 찍어서 AI 가 "이게 개다"라고 착각하게 만드는 것. (의도적인 오해)
  • 이 논문의 해킹 (Numerical Instability): 그림 자체는 거의 변하지 않지만, AI 가 그 그림을 계산하는 과정에서의 '숫자 오차'를 극대화하는 것.

비유:

한 식당에 손님이 와서 "이 요리는 뭐야?"라고 물었습니다.

  • 기존 해킹: 요리에 보이지 않는 독을 넣어서 요리사가 "이건 독이니까 먹지 마"라고 말하게 만드는 것.
  • 이 논문의 해킹: 요리는 그대로인데, 요리사가 재료를 썰 때 칼을 아주 미세하게 흔들게 만들어서, 그 흔들림이 쌓여 마지막에 "이건 독이네"라고 착각하게 만드는 것.

연구자들은 AI 가 그림을 처리할 때, 내부적으로 숫자를 더하거나 곱하는 과정에서 발생하는 작은 오차들이 쌓여 큰 오류로 변하는 지점을 찾아냈습니다. 그리고 그 오차가 가장 크게 나도록 이미지를 아주 조금만 (사람 눈에는 안 보일 정도로) 수정했습니다.

3. 실험 결과: AI 가 완전히 망가졌습니다

이론대로 실험을 해보니 놀라운 결과가 나왔습니다.

  • 상황: 똑같은 그림을 AI 에게 보여줬습니다. 하나는 깨끗한 그림, 다른 하나는 '숫자 오차'를 유발하도록 살짝 변형된 그림입니다.
  • 결과:
    • 깨끗한 그림: "여기에는 고양이가 있어요." (정답)
    • 변형된 그림: "여기에는 고양이 대신 개가 있고, 벽은 맥도날드 로고로 덮여 있어요." (완전 엉뚱한 답변)

핵심: 그림을 본 사람에게는 두 그림이 완전히 똑같아 보였습니다. 하지만 AI 내부에서는 계산 오차가 쌓여 완전히 다른 세계를 보게 된 것입니다.

4. 왜 이것이 무서운가요? (숨겨진 비용)

이 연구는 AI 가 단순히 "배우지 않아서" 틀리는 게 아니라, 컴퓨터가 숫자를 계산하는 방식 자체의 결함 때문에 틀릴 수 있음을 보여줍니다.

  • 비유: 아무리 훌륭한 **자동차 (AI)**를 만들어도, **엔진 내부의 기어 (숫자 계산)**가 미세하게 흔들리면 차가 갑자기 반대 방향으로 달릴 수 있다는 것입니다.
  • 문제점: 우리가 AI 를 더 똑똑하게 만들려고 노력할수록 (모델이 커질수록), 이 '숫자 오차'가 쌓일 가능성도 커집니다. 그리고 이 오류는 기존의 보안 방어막 (노이즈 제거 등) 으로 막을 수 없습니다.

5. 결론: 무엇을 배울 수 있을까요?

이 논문은 우리에게 중요한 경고를 줍니다.

"AI 가 똑똑해 보인다고 안심하지 마세요. 숫자를 계산하는 방식의 미세한 결함 하나만으로도 AI 는 완전히 미쳐버릴 수 있습니다."

앞으로 AI 를 개발할 때는 단순히 '지능'만 높이는 게 아니라, 숫자 계산이 얼마나 안정적인지를 함께 점검해야 한다는 것을 이 연구는 보여줍니다. 마치 건물을 지을 때 외관만 예쁘게 만드는 게 아니라, 기초 공사가 흔들리지 않도록 튼튼하게 해야 하는 것과 같습니다.


한 줄 요약:
"AI 에게는 보이지 않는 아주 작은 '숫자 오차'를 이용해, AI 의 머릿속을 뒤집어엎어 엉뚱한 말을 하게 만드는 새로운 해킹 방법이 발견되었습니다."