DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

本論文は、可変受容野とリレートークン機構を導入して長期依存関係のモデル化と希薄な偽造検出の感度を向上させた変形可能状態空間モデル「DeformTrace」を提案し、動画・音声の時間的偽造局所化において最先端の性能を達成することを示しています。

Xiaodong Zhu, Suting Wang, Yuanming Zheng, Junqi Yang, Yangxu Liao, Yuhong Yang, Weiping Tu, Zhongyuan Wang

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

偽造動画の「犯人特定」を劇的に加速する新技術「DeformTrace」の解説

この論文は、AI が作った「偽の動画(ディープフェイク)」が、動画のどの部分で、いつ、どのように書き換えられたかを、まるで探偵が証拠を突き止めるように正確に見つけ出す新しい技術「DeformTrace」について書かれています。

これまでの技術は「この動画は偽物だ」と判断するだけでしたが、この新技術は「ここからここまでの 5 秒間が捏造された」と、その境界線まで鮮明に特定できます。しかも、計算コストが安く、非常に高速です。

この仕組みを、3 つの「魔法の道具」を使ってわかりやすく解説します。


1. 背景:なぜこれが難しいのか?

従来の技術には 3 つの大きな壁がありました。

  1. 境界が曖昧: 偽造された部分と本物の部分の境目が、ぼやけていてどこからどこまでか分からない。
  2. 偽物が少ない: 10 分動画のうち、偽造されているのは数秒だけ。大部分は「本物」なので、AI が「偽物」の信号を見逃してしまう。
  3. 長い動画に弱い: 動画が長いと、AI の記憶力が薄れてしまい、動画の前半と後半のつながりが分からなくなる。

DeformTrace は、これらを解決するために**「変形する状態空間モデル(SSM)」**という新しいアプローチを採用しました。


2. 3 つの魔法の道具(核心技術)

① 「伸縮自在の望遠鏡」:Deformable Self-SSM

(可変自己 SSM)

  • 従来の AI: 動画を見る時、常に「1 秒前」と「1 秒後」だけを見る固定のカメラを持っています。でも、偽造の境界線がズレていると、正確に捉えられません。
  • DeformTrace の仕組み:
    • これは**「伸縮自在の望遠鏡」**のようなものです。
    • AI は「ここがおかしいかも?」と感じた瞬間、その焦点を自在に動かします。「もっと手前の 2 秒前まで見よう」「少し先まで見よう」と、必要な範囲だけ柔軟に広げたり狭めたりします。
    • これにより、偽造された部分の「入り口」と「出口」を、ピタリと正確に捉えることができます。

② 「中継駅」:Relay Token Mechanism

(中継トークン機構)

  • 従来の AI: 長い動画(例えば 1 時間)を処理する時、最初の情報と最後の情報の距離が遠すぎると、情報が途中で消えてしまいます(「長距離減衰」という現象)。
  • DeformTrace の仕組み:
    • これは**「長いトンネルを走る列車」**に似ています。
    • 信号が弱くなる長いトンネルの中に、**「中継駅(リレー・トークン)」**をいくつか設置します。
    • 情報は「本駅→中継駅→本駅」というように、中継駅で一度受け取って増幅し、次の区間に送ります。
    • これにより、動画の「冒頭」と「終盤」が繋がったまま、情報が途切れることなく伝達され、長い動画でも一貫した判断が可能になります。

③ 「探偵のメモ帳」:Deformable Cross-SSM

(可変交差 SSM)

  • 従来の AI: 動画全体を均一に分析しようとすると、「本物」の情報が大量に混ざり込み、わずかな「偽物」の信号が埋もれてしまいます。
  • DeformTrace の仕組み:
    • これは**「探偵が事件のヒントを探す」**ようなものです。
    • AI は「ここが偽物かもしれない」という**「仮説(クエリ)」**を立てます。
    • そして、その仮説に基づいて、動画の**「必要な部分だけ」**をピンポイントで引き出します。「偽物に関連する情報だけを集めて、ノイズ(本物の情報)は排除する」ように設計されています。
    • これにより、ごく短い偽造部分でも、敏感に反応して見つけ出すことができます。

3. 結果:どれくらいすごいのか?

この 3 つの技術を組み合わせた「DeformTrace」は、以下の驚異的な成果を上げています。

  • 精度の向上: 既存の最高峰の技術よりも、偽造部分の特定精度が大幅に向上しました(特に、境界線の特定が得意です)。
  • 超高速・軽量: 従来の技術に比べて、計算量は 1/6、処理速度は 5〜7 倍になりました。
    • 例え話: 従来の技術が「巨大なトラックで荷物を運ぶ」のに対し、DeformTrace は「軽快なスポーツカーで、必要な荷物だけ運ぶ」ようなものです。
  • 堅牢性: 動画が圧縮されたり、ノイズが入ったりしても、性能が落ちにくい(頑丈です)。

まとめ

DeformTrace は、「伸縮自在の望遠鏡」で境界を捉え、「中継駅」で記憶を維持し、「探偵のメモ帳」で偽物だけをピンポイントで狙うという、まるで人間の探偵のような直感と効率性を兼ね備えた AI です。

これにより、今後、SNS やニュースで流れる動画の信頼性を、より速く、より正確にチェックできるようになることが期待されています。