Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

本論文は、推論段階での数値的不安定性を最大化する損失関数を最適化することで、入力画像のわずかな変更のみで最先端のマルチモーダル大規模言語モデルの性能を著しく低下させる新たな攻撃手法を提案し、既存の敵対的摂動とは異なる故障モードを実証したものである。

Wai Tuck Wong, Jun Sun, Arunesh Sinha

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、最新の「マルチモーダル大規模言語モデル(画像を見て、言葉を話す AI)」が、人間には見えない**「数字の揺らぎ」**によって、なぜ突然バカになったり、間違った答えを言ったりしてしまうのかを解明したものです。

これをわかりやすく説明するために、いくつかの身近な例えを使ってみましょう。

1. 主人公:AI は「完璧な計算機」ではない

まず、この AI は私たちが想像する「無限の精度を持つ計算機」ではありません。
AI の頭脳(メモリ)は、**「半端な数字(浮動小数点数)」**で動いています。

  • 例え話: 想像してみてください。あなたが「1/3」を計算しようとして、メモ帳に「0.333333...」と書き始めたとします。しかし、メモ帳のスペースが限られていて、**「0.3333」**までしか書けないとします。
    • 本来の「1/3」と「0.3333」には、わずかな**「誤差」**があります。
    • 通常、この誤差は問題になりません。しかし、この論文の研究者たちは、**「このわずかな誤差を、あえて最大限に増幅させる」**という新しい攻撃方法を見つけました。

2. 攻撃の正体:「数字の揺らぎ」を誘発する

従来の攻撃(敵対的攻撃)は、画像にノイズを乗せて「人間には見えないが、AI には『猫』に見えるように」画像を加工するものでした。
しかし、この論文の攻撃は全く違います。

  • 新しい攻撃の仕組み:
    研究者たちは、画像を少しだけ(人間には見えないレベルで)いじくり回し、AI が内部で計算する過程で**「数字の丸め誤差」が最大になるように**調整しました。
  • 例え話:
    巨大な工場(AI)のベルトコンベアを想像してください。
    • 通常のノイズ攻撃: 製品(画像)に少し傷をつけて、検査員(AI)を混乱させる。
    • この論文の攻撃: 製品自体は綺麗だが、ベルトコンベアの**「回転速度」や「計測器の感度」**を、わずかに狂わせるように調整する。
    • すると、工場内の小さな誤差が次々と積み重なり、最終的に「完成品」が**「これは牛だ!」**と叫んでしまうほど、大きく間違った結果になってしまいます。

3. 何が起きたのか?(実験結果)

研究者たちは、最新の AI(LLaVA や Idefics など)にこの「数字の揺らぎ」を仕掛けました。

  • 結果:
    • 元の画像: 「壁はタイルでできている」と正しく答える。
    • 攻撃された画像(人間には同じに見える): 「壁はガラスだ!」と完全に違う答えをする。
    • さらに: 「女の子がタオルを被っている」画像なのに、「男の人が戦っている」という全くの嘘を言い出すこともありました。

これは、AI が「画像を見ていない」からではなく、**「計算の過程で数字の誤差が積み重なって、頭の中がパニックになった」**からです。

4. なぜこれが重要なのか?

これまでの研究では、「AI がバカになるのは、画像にノイズを乗せたから」と思われていました。でも、この論文は**「画像にノイズがなくても、AI の内部計算(半端な数字の処理)そのものが脆い」**ことを突き止めました。

  • 重要な発見:
    計算の精度を「倍(float32)」にしても、この問題は完全には解決しません。なぜなら、問題は「計算の精度」だけでなく、**「AI の構造そのものが、小さな揺らぎに敏感に反応してしまう」**という性質にあるからです。

5. まとめ:AI の「隠れた弱点」

この論文は、AI という巨大なシステムには、**「人間には見えない、数字の揺らぎという隠れた弱点」**があることを示しました。

  • 比喩で言うと:
    完璧に見える高層ビル(AI)でも、**「風(数字の誤差)」**が特定の角度から吹くと、ビル全体が揺れて倒れてしまう(間違った答えを出す)可能性がある、ということです。

今までは「画像をいじれば AI は騙せる」と思われていましたが、これからは**「AI の計算の仕組みそのものの脆さ」**を研究し、より頑丈な AI を作る必要がある、という警鐘を鳴らす重要な研究です。