Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"멀티모달 대형 언어 모델 (LVLM)"**이라는 최신 AI 기술이 가진 숨겨진 약점을 발견한 연구입니다.

쉽게 말해, **"AI 가 숫자를 계산할 때 생기는 아주 작은 오차들을 이용해, 사람의 눈에는 보이지 않는 방식으로 AI 를 혼란스럽게 만들고 실수를 하게 만든다"**는 내용입니다.

이 복잡한 내용을 일상적인 비유로 설명해 드릴게요.

1. 배경: AI 는 왜 '숫자'에 약할까?

우리가 사용하는 AI(예: 그림을 보고 설명을 해주는 AI) 는 엄청난 양의 데이터를 기억하고 계산을 합니다. 하지만 컴퓨터는 완벽한 숫자를 다룰 수 없어요.

비유: 마치 저울을 생각해 보세요. 아주 미세한 무게 (0.00001g) 를 재야 할 때, 저울이 아주 조금만 흔들려도 결과가 달라질 수 있죠.
현실: AI 는 메모리 효율을 위해 '반정밀도 (half-precision)'라는 방식을 씁니다. 이는 숫자를 조금 더 간략하게 저장하는 건데, 마치 소수점 아래를 잘라버린 계산기처럼 작동해요. 보통은 이 오차가 문제가 안 되지만, 연구자들은 이 '잘라버린 부분'을 공격점으로 삼았습니다.

2. 새로운 공격 방법: "숫자 폭탄" (Numerical Instability)

기존의 AI 해킹 방법은 그림에 눈에 보이는 노이즈를 넣거나, AI 가 틀리게 답하도록 유도하는 것이었습니다. 하지만 이 논문은 완전히 다른 길을 갔습니다.

기존 해킹 (Adversarial Attack): 그림에 보이지 않는 점을 찍어서 AI 가 "이게 개다"라고 착각하게 만드는 것. (의도적인 오해)
이 논문의 해킹 (Numerical Instability): 그림 자체는 거의 변하지 않지만, AI 가 그 그림을 계산하는 과정에서의 '숫자 오차'를 극대화하는 것.

비유:

한 식당에 손님이 와서 "이 요리는 뭐야?"라고 물었습니다.

기존 해킹: 요리에 보이지 않는 독을 넣어서 요리사가 "이건 독이니까 먹지 마"라고 말하게 만드는 것.

이 논문의 해킹: 요리는 그대로인데, 요리사가 재료를 썰 때 칼을 아주 미세하게 흔들게 만들어서, 그 흔들림이 쌓여 마지막에 "이건 독이네"라고 착각하게 만드는 것.

연구자들은 AI 가 그림을 처리할 때, 내부적으로 숫자를 더하거나 곱하는 과정에서 발생하는 작은 오차들이 쌓여 큰 오류로 변하는 지점을 찾아냈습니다. 그리고 그 오차가 가장 크게 나도록 이미지를 아주 조금만 (사람 눈에는 안 보일 정도로) 수정했습니다.

3. 실험 결과: AI 가 완전히 망가졌습니다

이론대로 실험을 해보니 놀라운 결과가 나왔습니다.

상황: 똑같은 그림을 AI 에게 보여줬습니다. 하나는 깨끗한 그림, 다른 하나는 '숫자 오차'를 유발하도록 살짝 변형된 그림입니다.
결과:
- 깨끗한 그림: "여기에는 고양이가 있어요." (정답)
- 변형된 그림: "여기에는 고양이 대신 개가 있고, 벽은 맥도날드 로고로 덮여 있어요." (완전 엉뚱한 답변)

핵심: 그림을 본 사람에게는 두 그림이 완전히 똑같아 보였습니다. 하지만 AI 내부에서는 계산 오차가 쌓여 완전히 다른 세계를 보게 된 것입니다.

4. 왜 이것이 무서운가요? (숨겨진 비용)

이 연구는 AI 가 단순히 "배우지 않아서" 틀리는 게 아니라, 컴퓨터가 숫자를 계산하는 방식 자체의 결함 때문에 틀릴 수 있음을 보여줍니다.

비유: 아무리 훌륭한 **자동차 (AI)**를 만들어도, **엔진 내부의 기어 (숫자 계산)**가 미세하게 흔들리면 차가 갑자기 반대 방향으로 달릴 수 있다는 것입니다.
문제점: 우리가 AI 를 더 똑똑하게 만들려고 노력할수록 (모델이 커질수록), 이 '숫자 오차'가 쌓일 가능성도 커집니다. 그리고 이 오류는 기존의 보안 방어막 (노이즈 제거 등) 으로 막을 수 없습니다.

5. 결론: 무엇을 배울 수 있을까요?

이 논문은 우리에게 중요한 경고를 줍니다.

"AI 가 똑똑해 보인다고 안심하지 마세요. 숫자를 계산하는 방식의 미세한 결함 하나만으로도 AI 는 완전히 미쳐버릴 수 있습니다."

앞으로 AI 를 개발할 때는 단순히 '지능'만 높이는 게 아니라, 숫자 계산이 얼마나 안정적인지를 함께 점검해야 한다는 것을 이 연구는 보여줍니다. 마치 건물을 지을 때 외관만 예쁘게 만드는 게 아니라, 기초 공사가 흔들리지 않도록 튼튼하게 해야 하는 것과 같습니다.

한 줄 요약:
"AI 에게는 보이지 않는 아주 작은 '숫자 오차'를 이용해, AI 의 머릿속을 뒤집어엎어 엉뚱한 말을 하게 만드는 새로운 해킹 방법이 발견되었습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

최근 멀티모달 대규모 언어 모델 (LVLMs, Large Vision-Language Models) 은 이미지와 텍스트를 결합하여 다양한 작업을 수행하며 널리 배포되고 있습니다. 그러나 이러한 모델들은 **수치적 불안정성 (Numerical Instability)**으로 인해 성능이 저하될 수 있는 새로운 취약점을 가지고 있습니다.

배경: LVLM 은 메모리 효율성과 처리 속도를 높이기 위해 종종 반정밀도 (Half-precision, float16) 연산을 사용합니다. 부동소수점 연산은 본질적으로 반올림 오차를 포함하며, 이는 구현 수준 (implementation level) 과 함수 수준 (functional level) 에서 오차를 누적시킵니다.
핵심 문제: 기존 연구는 주로 입력 이미지에 가시적인 노이즈를 추가하거나 특정 태스크의 손실 함수 (loss function) 를 최대화하는 적대적 공격 (Adversarial Attacks) 에 집중했습니다. 반면, 본 논문은 모델의 내부 수치적 불안정성을 유도하여 성능을 저하시키는 새로운 실패 모드를 규명합니다. 이는 입력 이미지의 미세한 변화 (가시적으로 거의 동일함) 만으로도 모델 내부의 부동소수점 연산 오차가 증폭되어, 추론 단계에서 심각한 성능 저하를 초래할 수 있음을 보여줍니다.

2. 방법론 (Methodology)

저자들은 수치적 불안정성을 유도하여 모델 성능을 저하시키는 새로운 공격 기법을 제안했습니다.

A. 수치적 오차의 정의 및 프록시 손실 함수 (Proxy Loss)

문제: 모델의 모든 연산에서 무한 정밀도 (infinite precision) 와 유한 정밀도 (float16 등) 간의 절대 오차 ( $E$ ) 를 직접 계산하여 최대화하는 것은 계산적으로 불가능 (intractable) 합니다.
해결책 (Lemma 3.1): IEEE 754 부동소수점 표준에 기반하여, 입력값의 크기가 클수록 반올림 오차가 커진다는 사실을 활용했습니다.
- 프록시 손실 (Proxy Loss): 실제 수치 오차를 계산하는 대신, 모델 내 모든 중간 단계 (elementary operations) 의 입력값 크기 ( $|\hat{\theta}_k|$ ) 를 최대화하는 것을 목표로 하는 손실 함수를 정의했습니다.
- 수식: $\max_{\delta} \sum_{k} |\hat{\theta}_k(X_I + \delta)|$
- 이 접근법은 입력의 작은 변화 ( $\delta$ ) 가 모델 내부의 함수들을 거쳐 출력의 큰 변화로 이어지도록 유도하여, 수치적 민감도와 함수적 민감도를 동시에 공격합니다.

B. 최적화 기법 (Optimization Tricks)

수치적 불안정성을 유도하는 과정에서 발생하는 그래디언트 소실 (vanishing gradients) 및 부정확한 그래디언트 문제를 해결하기 위해 다음과 같은 기법을 적용했습니다.

혼합 정밀도 (Mixed Precision): 손실 누적 및 오차 업데이트를 위해 float64를 사용하여 정밀도를 유지하고, 실제 모델 추론에는 float16 을 사용하여 오차를 유도합니다.
그래디언트 스케일링 (Gradient Scaling): 그래디언트의 크기가 매우 작아 업데이트가 불안정해지는 것을 방지하기 위해, 실제 그래디언트 값 대신 **부호 (Sign)**를 사용하여 업데이트 크기를 조절합니다 (Iterative FGSM 방식과 유사).

3. 주요 기여 (Key Contributions)

새로운 실패 모드 규명: 기존의 적대적 공격 (FGSM, PGD 등) 이 시각적 왜곡이나 태스크별 손실 최대화에 초점을 맞춘 반면, 본 논문은 수치적 불안정성 자체를 표적으로 하는 새로운 공격 벡터를 제시했습니다. 이는 모델의 내부 계산 구조에 내재된 취약점을 공략합니다.
효율적인 유도 프레임워크: 그라운드 트루스 (Ground Truth) 라벨이 필요 없으며, 모델의 수치적 특성 (부동소수점 오차) 만을 악용하여 성능을 저하시키는 이미지를 생성하는 프레임워크를 제안했습니다.
광범위한 검증: 다양한 아키텍처와 크기의 최신 LVLM 모델 (LLaVA-v1.5-7B, Idefics3-8B, SmolVLM-2B, Janus-Pro-1B) 과 표준 벤치마크 (MSCOCO, Flickr30k, VQAv2, TextVQA, POPE) 에서 실험을 수행하여 방법론의 보편성을 입증했습니다.

4. 실험 결과 (Results)

실험은 이미지 캡셔닝 (Image Captioning) 과 시각적 질문 답변 (VQA) 태스크에서 수행되었습니다.

성능 저하: 제안된 방법 (NUM) 은 기존 노이즈 (랜덤, 가우시안) 보다 훨씬 심각한 성능 저하를 유발했습니다.
- 예시: Idefics3-8B 모델의 MSCOCO 캡셔닝 태스크에서 CIDEr-D 점수가 **0.664 (Clean) 에서 0.273 (NUM)**으로 약 59% 감소했습니다.
- VQAv2 태스크에서도 유사한 경향성이 관찰되었으며, 특히 의미론적 일관성 (Semantic Consistency) 이 깨지는 현상이 두드러졌습니다.
의미론적 왜곡: 입력 이미지는 인간에게 거의 동일하게 보이지만, 모델의 출력은 완전히 다른 내용 (예: "타일"을 "유리"로 인식, "소녀"를 "남자"로 인식) 을 생성했습니다.
정밀도 영향 분석:
- float16, bfloat16, float32 등 다양한 정밀도 환경에서 실험한 결과, NUM 공격은 모든 정밀도에서 성능 저하를 보였습니다.
- 정밀도를 높이는 것 (float16 $\to$ float32) 만으로는 수치적 불안정성으로 인한 성능 저하를 완전히 해결할 수 없음을 확인했습니다. 이는 단순한 정밀도 부족이 아니라, 내부 연산의 누적 오차와 함수적 민감도가 원인임을 시사합니다.
비교: 기존 적대적 공격 (FGSM, PGD) 은 국소적인 왜곡을 일으키는 반면, 수치적 불안정성 공격은 모델의 주의 메커니즘 (Attention) 을 확산되고 정렬되지 않게 만들어 근본적으로 다른 메커니즘으로 성능을 저하시킵니다.

5. 의의 및 결론 (Significance & Conclusion)

새로운 취약점 인식: LVLM 의 취약점이 단순히 데이터나 태스크에 국한된 것이 아니라, 컴퓨터 아키텍처의 수치적 표현 (부동소수점) 과 모델의 함수적 민감도가 결합된 곳에 있음을 밝혔습니다.
보안 및 신뢰성: 실제 세계 (의료, 자율주행, 거버넌스 등) 에서 LVLM 을 배포할 때, 미세한 수치적 오차나 정밀도 설정 변화가 치명적인 오류로 이어질 수 있음을 경고합니다.
미래 과제: Lipschitz 상수 제한과 같은 기존 방어 기법은 LVLM 의 깊은 구조에서는 적용이 어렵습니다. 따라서 수치적 불안정성을 방지하거나 탐지할 수 있는 새로운 아키텍처 설계 및 이론적 경계 (Theoretical Bounds) 연구가 필요함을 강조합니다.

요약하자면, 이 논문은 멀티모달 AI 모델이 "보이지 않는" 수치적 오차에 얼마나 취약한지를 드러내며, 단순한 입력 노이즈를 넘어 모델의 내부 계산 구조를 공략하는 새로운 형태의 공격과 방어 연구의 필요성을 제기합니다.

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

1. 배경: AI 는 왜 '숫자'에 약할까?

2. 새로운 공격 방법: "숫자 폭탄" (Numerical Instability)

3. 실험 결과: AI 가 완전히 망가졌습니다

4. 왜 이것이 무서운가요? (숨겨진 비용)

5. 결론: 무엇을 배울 수 있을까요?

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

A. 수치적 오차의 정의 및 프록시 손실 함수 (Proxy Loss)

B. 최적화 기법 (Optimization Tricks)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers