NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

NAU-QMUL チームは、BERT と CLIP を活用したマルチモーダル多タスクモデルと疑似ラベルによるデータ拡張を提案し、AI 生成画像の検出および生成モデルの特定を目的としたコンペティション「CT2」のタスク A と B でそれぞれ 5 位という好成績を収めました。

Xiaoyu Guo, Arkaitz Zubiaga

公開日 2026-03-02
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 物語:AI 画像探偵の誕生

1. 背景:「本物か、偽物か?」という大問題

今、AI(人工知能)はすごい速さで進化しています。「犬の絵を描いて」と言うと、写真のようにリアルな犬の絵を瞬時に描いてくれるんです。でも、これには大きな問題があります。
「この絵は人間が描いたのか、AI が描いたのか?」 が区別できなくなってしまうのです。
嘘のニュースや著作権侵害を防ぐために、私たちは「AI 画像探偵」が必要でした。

2. 探偵の武器:「2 人の名探偵チーム」

この研究チームは、2 人の超能力を持った名探偵を組ませました。これが**「マルチモーダル(多様な情報を使う)」**という考え方です。

  • 探偵 A(BERT):言葉の専門家
    • 絵に添えられた「説明文(キャプション)」を読みます。
    • 「2 頭のキリンが並んでいる」という文章から、AI が生成する特有の「言葉の癖」や「不自然な表現」を見抜きます。
  • 探偵 B(CLIP):絵の専門家
    • 画像そのものを詳しく見ます。
    • 人間の描いた絵と、AI が描いた絵の「微細なノイズ」や「質感の違い」を見分ける目を持っています。

この 2 人は、それぞれが得意な分野を分析した後、**「情報交換(特徴融合)」**をして、総合的に判断を下します。

3. 探偵の任務:2 つのクイズ

この探偵チームには、2 つの難しいクイズが課されました。

  • クイズ A(二択): 「これは AI 生成?それとも人間の作品?」
    • 正解率を高めるのが目標です。
  • クイズ B(多択): 「もし AI なら、どの AI が描いたの?(Stable Diffusion か、DALL-E か、Midjourney か…)」
    • 具体的な犯人(AI モデル)を特定する必要があります。

4. 特殊な作戦:「自信満々の生徒」を先生にする

データが足りない場合、探偵は一人で頑張るのではなく、「生徒(未確認のデータ)」を先生にします。

  • 作戦名:疑似ラベル法(Pseudo-labeling)
  • 探偵チームが「これは 9 割方 AI だ!」と**自信満々(80% 以上の確信度)**で判断した画像を、あたかも「正解データ」のように扱って、さらに勉強させます。
  • これにより、探偵の経験値(学習データ)が大幅に増え、より鋭敏な探偵に成長しました。

5. 結果:大会で 5 位!

この探偵チームは、世界中の他のチームと競う「CT2:AI 画像検出コンペ」に参加しました。

  • クイズ A(本物か偽物か): 83.16% の正解率で5 位
  • クイズ B(どの AI か): 48.88% の正解率で5 位

特に「どの AI が描いたか」を特定するのは非常に難しかったのですが、この 2 人の探偵チームは素晴らしい成績を残しました。

6. 反省と未来:完璧ではないけれど、可能性は無限大

著者たちは、この作戦には少しリスクもあると認めています。

  • リスク: 「自信満々」でも実は間違っていた場合、その間違いを先生(データ)として教えてしまい、探偵が間違った方向へ進んでしまう可能性があります。
  • 未来: 今後は、単に情報を並べるだけでなく、言葉と絵の「関係性」をより深く理解する技術(アテンション機構など)を取り入れ、さらに賢く、偏りのない探偵を作りたいと考えています。

💡 まとめ

この論文は、「言葉の専門家」と「絵の専門家」をチームアップさせ、さらに「自信のある推測」を勉強材料にして鍛え上げることで、AI 画像を見分ける強力なシステムを作ったというお話です。

これにより、インターネット上の「本物と偽物」を見極める力が、さらに一歩進んだことになります。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →