FreeAct: Freeing Activations for LLM Quantization

本論文は、拡散 LLM やマルチモーダル LLM における動的なアクティベーションの分布を考慮し、重みとアクティベーションの変換を分離する新しい量子化フレームワーク「FreeAct」を提案し、既存手法を最大 5.3% 上回る性能向上を実現したことを示しています。

Xiaohao Liu, Xiaobo Xia, Manyi Zhang, Ji-Fu Li, Xianzhi Yu, Fei Shen, Xiu Su, See-Kiong Ng, Tat-Seng Chua

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

FreeAct: 巨大な AI の「頭」を小さくする、新しい魔法の箱

この論文は、**「FreeAct(フリーアク)」**という新しい技術について書かれています。これは、巨大な人工知能(LLM)を、スマホや普通のパソコンでも動かせるように「小さくする(量子化)」ための画期的な方法です。

難しい数式や専門用語を抜きにして、日常の例え話を使って説明します。


1. 問題:巨大な AI は「重すぎる」

今の AI(LLM)はすごいことができますが、その代償として**「メモリ(記憶装置)」と「計算能力」を大量に消費**します。これをスマホに載せようとすると、重すぎて動かないのです。

そこで研究者たちは、AI のデータを「4 ビット」という極小のサイズに圧縮しようとしています。でも、単純に圧縮すると、AI の頭が混乱して、まともな答えが出せなくなります(例:「1+1=3」と言ったり、意味不明な文字を並べたりする)。

2. 従来の方法の限界:「硬い箱」のルール

これまでに使われていた技術(QuaRot や FlatQuant など)は、**「変換の箱」**という考え方をしました。

  • 仕組み: 入力されたデータ(活性化)を、滑らかな形に整える「箱(変換行列)」に入れてから圧縮します。
  • ルール: この箱は**「1 対 1」**という硬いルールがありました。「入力 A には箱 A、出力には箱 A の逆バージョン」というように、入力と出力は必ずペアで固定されていたのです。

【問題点】
AI が処理するデータは、実は**「状況によって全く違う」**のです。

  • 多模态 AI(MLLM)の場合: 「画像」と「文章」では、データの性質が全く異なります。
  • 拡散 AI(dLLM)の場合: 「隠された単語(マスク)」と「見えている単語」でも、データの動き方が違います。

従来の「硬い箱」は、**「どんなデータが来ても、同じ箱で処理しなさい」**と言っているようなものでした。画像と文章を同じ箱に入れるのは、靴とケーキを同じ袋に詰めようとするようなもので、うまくいきません。

3. FreeAct の解決策:「自由な箱」の登場

FreeAct は、この「硬いルール」を壊しました。**「入力データの種類に合わせて、箱を自由に使い分けよう」**というアイデアです。

具体的なイメージ:レストランの注文

AI の処理を**「高級レストラン」**に例えてみましょう。

  • 従来の方法(硬いルール):
    厨房(AI の重み)は固定されています。客(入力データ)がどんな注文(画像か文章か)をしても、**「同じメニュー表(変換箱)」**で処理します。

    • 結果:「ステーキ(画像)」と「パスタ(文章)」を同じメニューで処理しようとして、味が壊れてしまいます。
  • FreeAct の方法(自由なルール):
    厨房(AI の重み)は**「固定されたマスターシェフ」のままですが、「客室ごとのメニュー表(変換箱)」**を準備します。

    • 画像の客室: 画像専用のメニュー(箱 P)を用意。
    • 文章の客室: 文章専用のメニュー(箱 P')を用意。
    • 厨房: どちらの客室から来ても、マスターシェフ(重み)は同じ調理法で対応します。

FreeAct は、**「入力側(客)に合わせて箱を変えるが、出力側(厨房)は変えない」**という、今まで誰もやらなかった「自由な変換」を実現しました。

4. なぜこれが可能なのか?「欠けたパズル」の秘密

「箱を分けても、AI の計算結果が狂わないの?」と疑問に思うかもしれません。ここが FreeAct のすごいところです。

AI のデータには、実は**「無駄な部分(ランク不足)」が隠れています。パズルで言えば、「必要なピースは全部揃っているが、枠自体は空いている」**ような状態です。

FreeAct は、この**「空いているスペース」**をうまく利用しました。

  • 画像用の箱と文章用の箱は、**「共通部分」「独自の部分」**に分けて作ります。
  • 独自の部分は、他のデータには「0(何もない)」として扱います。
  • これにより、**「箱を分けても、最終的に厨房(重み)に渡される情報は、元のまま正確に再現される」**という魔法のような仕組みを実現しています。

5. 結果:劇的な性能向上

この方法を実際に試したところ、驚くべき結果が出ました。

  • 画像と文章を混ぜる AI(MLLM)や、「マスク」を使う AI(dLLM)において、従来の最高峰の技術よりも最大 5.3% 高い精度を達成しました。
  • 4 ビットという極小のサイズでも、16 ビット(元のサイズ)に近い性能を発揮できるようになりました。

まとめ

FreeActは、AI を小さく圧縮する際に、**「入力データの種類に合わせて柔軟に処理を変える」**という新しい考え方を提案しました。

  • 以前の AI: 「どんなデータも、同じ箱で押し込む」→ 潰れて壊れる。
  • FreeAct の AI: 「データに合わせて箱を変え、厨房はそのまま」→ 美しく圧縮され、高性能のまま動く。

これにより、スマホや個人の PC でも、高度な画像認識や複雑な推理ができる AI が、もっと手軽に使えるようになる未来が近づいたのです。