TransactionGPT

本論文は、世界中の大手決済ネットワークの数十億件の取引データで学習された、3D トランスフォーマーアーキテクチャを採用した新しい基盤モデル「TransactionGPT」を提案し、異常検知や将来取引生成などの下流タスクにおいて既存のモデルや微調整された LLM を凌駕する性能と効率性を示したものである。

Yingtong Dou, Zhimeng Jiang, Tianyi Zhang, Mingzhi Hu, Zhichao Xu, Shubham Jain, Uday Singh Saini, Xiran Fan, Jiarui Sun, Menghai Pan, Junpeng Wang, Xin Dai, Liang Wang, Chin-Chia Michael Yeh, Yujie Fan, Yan Zheng, Vineeth Rakesh, Huiyuan Chen, Guanchu Wang, Mangesh Bendre, Zhongfang Zhuang, Xiaoting Li, Prince Aboagye, Vivian Lai, Minghua Xu, Hao Yang, Yiwei Cai, Mahashweta Das, Yuzhong Chen

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

Visa の研究チームが開発した「TransactionGPT(TGPT)」という新しい AI について、難しい専門用語を使わずに、日常の例え話で説明します。

🏪 結論:これは「お金の動きを読む天才」です

Imagine(想像してみてください)ある巨大なスーパーマーケットの店長が、「10 億人ものお客さんが、過去に何を買ったか、いつ買ったか、誰と買ったか」という膨大な記録をすべて頭に入れていたとします。

そして、その店長はただ記録を覚えているだけでなく、「次の瞬間、誰が何を買いに来るのか」を予知したり、「今、誰かが変な買い物をしようとしている(詐欺かもしれない)」と瞬時に察知したりできる能力を持っています。

この「お金の動きを読む天才」こそが、この論文で紹介されている**TransactionGPT(TGPT)**です。


🧩 なぜ普通の AI ではダメだったのか?(3 つの壁)

これまでの AI(特に文章を作る AI や画像を見る AI)を、お金の取引データにそのまま使おうとすると、3 つの大きな壁にぶつかりました。

  1. 言葉の壁(言語 vs 数字)
    • 普通の AI は「猫」「犬」といった言葉の意味を理解するのが得意です。
    • でも、お金の取引データは「1,000 円」「10 時」「A 店」といった数字や記号の羅列です。言葉の意味を理解する AI を無理やり使うと、計算が重すぎて意味も通じません。
  2. 表の壁(データベースの難しさ)
    • 取引データは、Excel のような**「表(テーブル)」**の形をしています。
    • 既存の AI は、小さな表や、意味がはっきりした列名がある表しか扱えません。でも、お金のデータは「 Merchant ID(お店の ID)」のように、数千万種類もある名前や、「詐欺かどうか」という目的によって変わる特殊な数字が混ざり合っていて、とても複雑です。
  3. 時間の壁(単なる時系列ではない)
    • 天気予報のような「時系列データ」は、1 秒ごとの気温など「1 つの数字」の連続です。
    • でも、お金の取引は、**「いつ(時間)」「誰が(お店)」「いくら(金額)」「どんな商品(カテゴリ)」**など、1 回の取引に複数の情報がぎっしり詰まっているのです。これを普通の時系列 AI で扱うのは、まるで「1 つの数字で、映画の全内容を説明しようとする」ようなものなので、無理があります。

🏗️ TGPT のすごい工夫:3 次元の「魔法の塔」

そこで Visa のチームは、**「3 次元(3D)の Transformer(AI の心臓部)」**という新しい仕組みを作りました。

これを**「3 階建てのビル」**に例えてみましょう。

  • 1 階(メタデータ・層):
    • 「いつ」「どこで」「誰が」といった基本的な情報を整理する部屋です。
    • ここでは、お店の名前や場所、時間帯の「雰囲気」を深く理解します。
  • 2 階(特徴・層):
    • 「詐欺かどうか」「どんな商品か」といった、目的に合わせた特殊な情報を処理する部屋です。
    • ここでは、取引の「目的」に合わせて、必要な数字だけを厳選して扱います。
  • 3 階(時間・層):
    • 1 階と 2 階で整理された情報を、**「時間の流れ」**としてつなぐ部屋です。
    • 「昨日は A 店で、今日は B 店で…」というストーリーを読み解きます。

🪄 魔法の「バーチャル・トークン」

この 3 つの部屋をどうやってつなぐかが最大の難問でした。

  • 問題: 1 階の情報(お店の名前など)は膨大で、2 階の情報(詐欺判定の数字)はシンプルです。これを無理やり 1 つの箱に詰めると、箱が破裂するか(計算が重くなる)、中身が潰れてしまいます。
  • 解決策(バーチャル・トークン):
    • TGPT は、**「バーチャル・トークン(仮のカード)」**という魔法を使います。
    • 膨大な情報を「カード」に変換し、必要な分だけ「カードの枚数」を調整しながら、3 つの部屋を行き来させます。
    • これにより、**「情報の量は減らさずに、計算の重さは軽く」**する、という夢のようなバランスを実現しました。

🚀 何ができるようになったの?(実力テスト)

この TGPT を使ったところ、驚くべき結果が出ました。

  1. 詐欺(不正利用)の発見が 22% 向上
    • 既存のシステムよりも、「おかしい取引」を 22% も多く見つけられるようになりました。
    • 例え話:「いつもと違う時間に、いつもと違う場所で、高価なものを買いに来た人」を、瞬時に「あ、これは変だ!」と察知できます。
  2. 未来の買い物を予測
    • 「この人は次に、どこで何を買うか?」を予想する精度も上がりました。
    • 例え話:「この人は週末にカフェに行くのが好きだ」というパターンを学習し、「次はカフェに行くはずだ」と予測できます。
  3. LLM(超大規模 AI)より速くて安い
    • 最近流行りの「チャット AI(LLM)」を無理やり使おうとすると、計算に時間がかかりすぎて実用になりません。
    • でも、TGPT は**「お金の専門家」**として特化しているため、LLM よりも 300 倍速く、パラメータ(脳のサイズ)は 1/100で、同じ以上の精度を出しました。

💡 まとめ

この論文は、「お金の取引データ」という複雑で特殊な世界のために、AI をゼロから作り直したという物語です。

  • これまでの AI: 「言葉」や「画像」を見るのが得意。
  • TGPT: 「お金の動き(数字・時間・場所)」を見るのが得意。

**「バーチャル・トークン」という工夫で、膨大な情報を整理整頓しながら、「詐欺を見抜く」「次の買い物を予測する」**という、私たちの生活に直結するタスクを、より速く、より正確にこなせるようになりました。

Visa のような巨大な決済ネットワークでは、この TGPT が**「お金の流れを守る見張り番」**として活躍し、私たちのカード利用をより安全で快適なものにしてくれるでしょう。