SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

本論文は、マルチモーダル基盤モデルのタイポグラフィ攻撃に対する堅牢性を評価するための大規模で多様な実世界データセット「SCAM」を構築・公開し、モデルのアーキテクチャや学習データが攻撃への脆弱性に与える影響を明らかにするとともに、合成攻撃の実世界攻撃への有効性を検証した。

Justus Westerhoff, Erblina Purelku, Jakob Hackstein, Jonas Loos, Leo Pinetzki, Erik Rodner, Lorenz Hufe

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI の目は、文字に騙されやすい」**という驚くべき発見と、それを証明するための新しい実験道具(データセット)について書かれたものです。

タイトルにある**「SCAM(スキャン)」は、ここでは「詐欺(Scam)」という意味を掛けた造語で、「 Multimodal(多様な情報を持つ)AI モデルに対する、こっそり文字を仕掛ける攻撃」**を指しています。

以下に、難しい専門用語を使わず、日常の例え話を使って解説します。


1. 何が問題なのか?「AI の『文字』への過信」

現代の AI(画像を見て「これは何?」と答えるロボット)は、写真の中の物体だけでなく、写真に書かれている「文字」にも強く反応することがわかりました。

  • 例え話:
    Imagine you are looking at a photo of a clock (時計).
    But someone has stuck a sticky note (付箋) next to it that says "TAXI".
    Normally, a human would laugh and say, "That's a clock, silly!"
    But the AI? It gets confused. It sees the word "TAXI" and thinks, "Oh! It must be a taxi!"

    日本語で言うと:
    時計の写真を AI に見せると、その横に「タクシー」と書かれた付箋を貼っただけで、AI は**「これはタクシーだ!」と間違った答えをしてしまいます。
    AI は「写真の形」よりも「文字の意味」を優先して考えてしまうのです。これを
    「タイポグラフィック・アタック(文字による攻撃)」**と呼びます。

2. 研究チームがやったこと:「SCAM データセット」の作成

これまでは、この「文字による攻撃」を調べるためのデータが少なくて、研究が進んでいませんでした。そこで、この論文の著者たちは、**世界最大規模の「文字攻撃用写真集(SCAM)」**を作りました。

  • どんなもの?

    • 本物の写真 1,162 枚を集めました。
    • 対象は、時計、車、動物、食べ物など660 種類ものバラエティに富んだもの。
    • 攻撃用の言葉も、「タクシー」や「歩行者」など206 種類あります。
    • 特徴: 9 人の人が、それぞれ違うスマホで、違う場所で、手書きの付箋を貼って写真を撮りました。これにより、本物の「街中」や「家の中」の雰囲気を再現しています。
  • 3 つのバージョン:

    1. SCAM(攻撃版): 付箋に「誤った言葉」が書かれている写真。
    2. NoSCAM(クリーン版): 同じ写真から、付箋の文字を消した(元に戻した)写真。
    3. SynthSCAM(合成版): 元の写真に、デジタルで「誤った文字」を後から書き込んだ写真。

3. 実験結果:AI はどうなった?

この「SCAM」を使って、最新の AI(Vision-Language Models)をテストしました。

  • 結果 1:AI は簡単に騙される

    • 多くの AI は、文字が書かれているだけで、正解率が26% も低下しました。
    • 例:「時計」の写真に「タクシー」と書かれると、AI は「タクシー」と答えてしまいます。
  • 結果 2:「手書き」も「デジタル」も同じくらい効果的

    • 本物の手書きの付箋(SCAM)も、後からデジタル加工した文字(SynthSCAM)も、AI を騙す力はほぼ同じでした。
    • 意味: 研究者たちは、本物の写真がなくても、デジタル加工したデータで実験すれば良いことがわかりました。これにより、安全に研究を進められます。
  • 結果 3:AI の「脳」の大きさで変わる

    • 小さな AI は簡単に騙されますが、「大規模言語モデル(LLM)」という大きな「脳」を持っている AIは、騙されにくくなりました。
    • 例え話: 小さな AI は「文字が見えたら、その言葉が正解だ!」と単純に考えてしまいますが、大きな AI は「いや、待てよ。写真の形は時計だ。文字はただの罠かもしれない」と、文脈を深く考えて判断できるようになります。

4. なぜこれが重要なのか?

この研究は、AI が安全に使えるようになるための重要な一歩です。

  • 自動運転車: もし道路標識の横に「歩行者」という偽の文字が書かれたら、AI は「歩行者がいる!」と誤認して、不必要に急ブレーキをかけるかもしれません。
  • 医療診断: レントゲン写真に誤ったラベルが貼られていたら、AI は間違った病気を診断するかもしれません。

まとめ:この論文のメッセージ

  1. AI は「文字」に弱すぎる。 写真の形よりも、そこに書かれた文字に引きずられやすい。
  2. 新しい実験道具「SCAM」を作った。 これを使って、AI の弱点を詳しく調べられるようになった。
  3. 大きな AI は強い。 文字の罠に引っかかりにくくなるためには、AI の「思考力(言語モデル)」を大きくすることが有効。
  4. デジタル加工でも実験できる。 本物の手書き写真がなくても、デジタル加工したデータで同じ結果が得られるので、研究がしやすくなる。

一言で言うと:
「AI は、写真に書かれた『嘘の文字』に簡単に騙されてしまう弱いところがある。でも、もっと賢い(大きな)AI にすれば、その罠に気づけるようになるよ」という発見を、新しい実験データセット「SCAM」を使って証明した論文です。