原著者： Tim Menzies, Srinath Srinivasan

公開日 2026-06-03✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Tim Menzies, Srinath Srinivasan

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

ビッグアイデア：本当に巨大なAIマシンが必要なのか？

【重要なお断り：この論文の範囲について】
この研究が対象としているのは、AIの広大な領域全体ではありません。これは、数値のテーブルと目標に関する「表形式（Tabular）」のソフトウェアエンジニアリング問題に限定された発見です。 ここには、分類、予測、回帰、最適化、そして限定的なテキストマイニングが含まれますが、ChatGPT や LLM のような「生成 AI」（コードや文章を生成するタスク）は含まれていません。 著者たちは、これらの生成タスクにはまだ取り組んでおらず、それらへの適用は今後の課題としています。

現在のトレンドでは、庭に落ちた鍵を見つけるという単純な問題を解決するために、巨大でハイテクな超高層ビルを建てるようなアプローチがとられています。誰もが「その鍵を見つけるには、10 億ドルのクレーン、50 人のエンジニアチーム、そしてスーパーコンピュータが必要だ」と言っています。

この論文の著者たちは、「表形式データ（数値のテーブルと目標）に関する問題」においてだけこう言います。「ちょっと待ってください。超高層ビルは必要ありません。ただの懐中電灯と地図があればいいのです。」

彼らは、この特定の分野（表形式のソフトウェアエンジニアリング問題）の多くにおいて、私たちは物事を複雑にしすぎていると主張しています。彼らは、膨大な重いソフトウェアライブラリの役割を果たす、EZRと呼ばれる非常に小さなツールキット（わずか 400 行のコード）を作り上げました。これは、既存の巨大なライブラリよりも 500 倍速く動作し、学習に必要なデータもほとんど必要としません。

ツールキット：スイスアーミーナイフ vs 倉庫

現代のほとんどの AI ツールは、専門化された道具が詰まった倉庫のようなものです。木材用の巨大なノコギリ、金属用の重いドリル、ガラス用の複雑なレーザーといった具合です。たった一つの道具を使うためだけに、倉庫全体（pandas や sklearn のような巨大なライブラリ）を購入しなければなりません。

EZR はスイスアーミーナイフです。
著者たちは、これらの異なるツールがどのように機能しているかを詳しく観察すれば、実際にはすべて同じ基本的なことを行っているのだと気づきました。彼らは派手なパッケージを剥ぎ取り、以下のことがすべて同じ 3 つのシンプルな構成要素に基づいていることを見出しました。

分類 (Classification)（ものをグループに分ける）
クラスタリング (Clustering)（自然な集まりを見つける）
最適化 (Optimization)（最善の解を見つける）
テキストマイニング (Text Mining)（関連する文書を見つける）

これらはすべて、以下の 3 つのシンプルな「バケツ」に依存しています。

Num: 数値を数え、平均を出すバケツ。
Sym: シンボル（単語やカテゴリなど）を数えるバケツ。
Data: 情報の行を保持する箱。

あらゆるタスクのために新しいエンジンを作る代わりに、EZR はこれらの同じバケツを使ってすべてを行います。それは、スプーン、フォーク、ナイフはすべて特定の形状を持つ持ち手であることに気づくようなものです。それらを作るために 3 つの異なる工場を用意する必要はありません。

6 つの驚くべき発見

この小さなツールキットを 120 以上の実世界の表形式（Tabular）ソフトウェア問題でテストした結果、以下のような発見がありました。これらを簡単な比喩を用いて説明します。

1. 「重厚さ」の神話

信念： 表形式のデータ処理を行うには、巨大なコンピュータと巨大なライブラリが必要である。
現実： 小さなスクリプトで実行できる。
比喩： それは、子守唄を奏でるためにフルオーケストラが必要だと考えているようなものです。著者たちは、単一のバイオリン（EZR）が、他の 50 人のミュージシャン（重い依存関係）を必要とせずに、表形式のタスクを十分に演奏できることを示しました。

2. 「別々の主題」の神話

信念： 表形式のデータを分類すること、グループ化すること、パターンを見つけることは、それぞれ異なるコードを必要とする全く別の主題である。
現実： 中身（仕組み）はほぼ同一である。
比喩： それは、車の運転、トラックの運転、バスの運転が完全に異なるスキルだと考えているようなものです。著者たちは、車両のサイズを取り除けば、ハンドルとペダルは同じであることを示しました。彼らはこれら 3 つのタスクすべてを処理する 30 行のコードを書きました。

3. 「木」の神話

信念： 数値を予測するための決定木（AI のフローチャートのようなもの）は、カテゴリを予測するためのものとは全く異なる木である。
現実： 同じ木であり、ただ「果実」が異なるだけである。
比喩： リンゴが育つ木を想像してください。もしオレンジが欲しいなら、新しい樹種を用意する必要はなく、枝につけるラベルを変えるだけでよいのです。著者たちは、数値を予測することとカテゴリを予測することの切り替えは、コード上のわずか 1 行の変更で済むことを示しました。

4. 「新 vs 旧」の神話

信念： 新しい複雑な探索手法（再起動を伴うローカルサーチ）は、古い単純な手法（1983 年のシミュレーテッド・アニーリング）よりも常に優れている。
現実： 古い手法の方が、多くの場合、同等か、あるいは優れている。
比喩： 霧の深い谷で最も低い地点を探していると想像してください。「新しい」手法は、「行き詰まったら、スタート地点に戻ってやり直せ！」と言います。「古い」手法は、「行き詰まったら、自分自身を揺さぶって脱出するために、ランダムに少しだけ上にステップアップせよ」と言います。著者たちは、「揺さぶって脱出する」方法（1983 年式）が、絶えず再起動するという混乱を伴うことなく、「戻ってやり直す」方法と同じくらいうまく機能することを発見しました。

5. 「もっと多くのデータ」の神話

信念： 表形式のデータから優れたモデルを構築するには、数千のラベル付き例と数千の変数（特徴量）が必要である。
現実： 非常に少ないラベルと非常に少ない特徴量で十分である。
比喩： レースの勝者を予想しようとしていると想像してください。あなたは、ランナーの身長、体重、靴のサイズ、食事、睡眠、血液型など、数千の情報を知る必要があると思うかもしれません。しかし、著者たちは、わずか2 つや 3 つのこと（例えば「靴のサイズ」と「睡眠」）を知っていれば、勝者を正確に予測するのに十分であることを発見しました。また、通常は数千の例を必要とするモデルの学習に、わずか50の例のラベル付けで十分であることも明らかにしました。

6. 「テキストマイニング」の神話

信念： 巨大なライブラリの中から関連する文書を見つけるには、数十億のパラメータを持つ大規模な AI モデル（LLM）が必要である。
現実： シンプルな数学的トリックがよりうまく機能する。
比喩： 干し草の山の中から特定の針を探していると想像してください。ハイテクなアプローチは、重さがトンもある巨大な磁石を使います。著者たちは、30 行のコードによるシンプルな「補完ベイズ（Complementary Bayes）」というトリックを使用しました。これは鋭い針のように機能します。それは巨大な磁石よりも速く、かつ間違い少なく関連文書を見つけ出し、さらに巨大な磁石がどのように誤用されているかという欠陥をも露呈させました。

「能動学習（Active Learning）」のスーパーパワー

EZR が持つ最も素晴らしい機能の一つは、**能動学習（Active Learning）**です。

受動学習： コンセプトを学ぶために、教科書を 1,000 ページ読む学生を想像してください。
能動学習（EZR）： 10 ページ読み、自分が何を理解していないかを把握し、その特定の 10 ページについてのみ先生に質問する学生を想像してください。

EZR はこの賢い学生のように振る舞います。データを見て、どの例が最も紛らわしいか、あるいは重要かを判断し、その例に対してのみラベルを要求します。これにより、人間が何千もの退屈で繰り返しの多い例にラベルを貼る必要がなくなり、膨大な時間とコストを節約できます。

結論：コードを読み、ハイプ（過剰な宣伝）を鵜呑みにするな

この論文の主なメッセージは、開発者や研究者への行動喚起です。「コードを読みなさい。」

著者たちは、私たちがコードを読むことをやめ、AI という「ブラックボックス」のツールを盲目的に信頼するようになってしまったと主張しています。これらのツールのコードを実際に読むことで、多くのツールが異なる方法で同じことを行っているのだということに気づいたのです。

まとめ：
食料品店へ車で行く前に、歩いてみることを検討してください。

もし単純なツールキット（EZR のようなもの）で表形式のタスクを解決できるなら、それによって時間、お金、エネルギーを節約できます。
もしその単純なツールキットが機能しないのであれば、その時初めて、真に複雑なソリューションが必要であると分かります。
しかし、「他の誰もがそうしているから」という理由だけで複雑なソリューションが必要だと思い込むなら、あなたはポケットナイフだけで済むところに、重いバックパックを背負っているのかもしれません。

著者たちは、ソフトウェアエンジニアリングの最適化の世界においては、**「少ないことは、より豊かなことである（Less is more）」**ことが多く、その「少ないもの」を見つける最善の方法は、既存のコードを注意深く読み、簡素化することであると結論づけています。

【最終的な範囲の確認】
これらの教訓は、表形式（Tabular）のソフトウェアエンジニアリングタスクにおいて実証されました。これらが生成 AI（チャットボットやコード生成など）の領域にどのように拡張されるかは、まだ未解決の課題であり、今後の研究課題です。

技術要約：AIは容易になり得るか？ EZR.py ツールキットから得られた教訓

問題提起

ソフトウェアエンジニアリングおよび人工知能における最近の議論では、人間がコードを読む必要はなくなり、AI（特に大規模言語モデル）が新たなコンパイラになったとする見解がある。同時に、ソフトウェアエンジニアリング（SE）の最適化分野は、重厚で依存関係の多いライブラリ（例：pandas, scikit-learn, SMAC3）に依存しており、複雑な問題を解決するにはデータの量、特徴量の数、およびアルゴリズムの複雑性を増大させる必要があると仮定している。

本論文は、表形式のソフトウェアエンジニアリング最適化タスク（行が構成やプロジェクトを表し、 $x$ が独立した属性、 $y$ が取得コストの高い目標であるもの）の領域における、以下の2つの支配的な仮定に異を唱えるものである：

AIのインフラストラクチャは、大規模かつ重厚な依存関係を持つ必要がある。
異なるアルゴリズム・ファミリー（分類、クラスタリング、最適化、能動学習）は、個別の複雑な実装と膨大なデータセットを必要とする。

著者らは、既存のコードを注意深く読み、リファクタリングすることで、多くの「洗練された」手法が構造的に冗長であることを明らかにできると主張する。そして、軽量で統一されたツールキットが、桁違いに低い複雑性でありながら、最先端（SOTA）の性能に匹敵、あるいはそれを凌駕できることを示す。

メソドロジー

核心となる手法は、**「読み込みによるコードのリファクタリング」**である。著者らは、多様なAIツールを読み、書き換え、リファクタリングすることに数年を費やし、冗長性を特定・排除した。その結果として生まれたのが、Python標準ライブラリのみを使用し、重いサードパーティ依存関係を持たない400行のPythonツールキットである EZR.py である。

EZRの基盤（サブストレート）

EZRは、4つのクラスと1つの更新プリミティブからなる最小限の基盤の上に構築されている：

Num: 数値列を要約する（平均、二次モーメント、標準偏差、および目標方向への「天国（heaven）」値を追跡する）。
Sym: シンボリック（記号的）な列を要約する（頻度カウントを追跡する）。
Cols: 命名規則（例：クラスを示すための "!"、最大化のための "+"、最小化のための "-"）に基づいて Num または Sym オブジェクトをインスタンス化するファクトリ。
Data: 行と、それに関連付けられた列の要約を保持する。
add: 多態的な更新プリミティブ。Welfordのアルゴリズムを用いて Num の統計量を逐次更新し、Sym の頻度カウントを更新する。決定的なのは、加算と減算（ $w=1$ または $w=-1$ ）の両方をサポートしていることで、これにより、再学習を行うことなく、定数時間でデータをセット間で移動させることが可能になる。

アルゴリズムの実装

この基盤を用いて、著者らは6つの異なるAI機能を実装し、それらが共通の基礎的なメカニズムを共有していることを実証した：

分類とクラスタリング (70行): ナイーブベイズ、k-means、およびk-means++を実装。この基盤は「適合（fitting）」と「使用（using）」の区別を排除する。すなわち、Data オブジェクト自体が適合済みのモデルとなる。
決定木 (43行): 分類木と回帰木の統一された実装。唯一の違いはスコアリング関数（回帰には disty、分類にはエントロピー）である。
最適化 (56行): シミュレーテッド・アニーリング（SA）とローカルサーチ（LS）を、単一の (1+1) 進化的アルゴリズムのバリエーションとして実装。両者は同じ oneplus1 ループを共有し、変異戦略と受理戦略のみが異なる。
能動学習 (80行): 2つのデータセット、すなわち best（上位 $\sqrt{N}$ 行）と rest（残りの行）を保持する能動学習器。新しいラベルが付与されると、add/sub プリミティブを用いた定数時間の再バランスが行われる。これは、SMAC3のようなアンサンブル手法で必要とされるフルリトレーニングを回避する。
テキストマイニング (30行): **相補ナイーブベイズ（Complementary Naïve Bayes, CNB）**を用いた関連性フィルタ。最も可能性の高いクラスを予測するのではなく、文書が属する可能性が「最も低い」クラスを予測することで、効果的に無関係な文書をフィルタリングする。

実験設定

ツールキットは、ソフトウェア構成、パフォーマンスチューニング、欠陥予測、テキストマイニングをカバーする MOOTリポジトリ からの 124の多目的最適化タスク で評価された。

比較対象: EZRは、SMAC3（最適化）、SHAP/LIME（説明性）、FASTREAD（テキストマイニング）を含むSOTAツールと比較された。
指標: パフォーマンスは、「勝ち（正規化された後悔/regret）」、ラベル効率（最適値に達するまでのラベル数）、特徴量効率（使用された特徴量の数）、および実行時間によって測定された。
統計的厳密性: 結果は20回以上の繰り返し試行にわたって集計された。些細な変動による過剰解釈を避けるため、Sawilkwskyの閾値（0.35 $\sigma$ ）より小さい差はゼロとして扱った。

主要な結果

1. パフォーマンス vs 複雑性

最適化: 20のMOOTベンチマークにおいて、シミュレーテッド・アニーリング（1983年のデフォルト構成、再起動なし）は、ローカルサーチのバリアントやSMAC3と同等または優れた性能を示した。SAは平均勝率スコア 98–99 を達成したが、LSが同様の性能に達するには再起動が必要であった。
速度: EZRの能動学習器は、SMAC3よりも 500倍速く 動作した。これは、EZRが行を入れ替えることでモデルを定数時間（ $O(1)$ ）で更新するのに対し、SMAC3は新しいラベルごとに決定木のアンサンブルを再構築する必要があるためである。
ラベル効率: EZRの能動学習器は、100個未満のラベル で参照最適値の 85–95% に到達した。これに対し、SOTA手法はしばしば数千のラベルを必要とする。
特徴量効率: データセットに数百または数千の特徴量が含まれているにもかかわらず、EZRの決定木は一貫して 10個未満の変数 を用いて効果的なモデルを構築した。利用可能な特徴量の数が増えても、パフォーマンスは低下しなかった。

2. テキストマイニング

相補ナイーブベイズを用いることで、EZRは系統的レビュー（SLR）タスクにおいて、FASTREAD（線形SVMを使用）が300〜800個のラベルを必要としたのに対し、100個未満のラベル で高い再現率を達成した。
本研究は、先行研究における方法論的なギャップを露呈させた。偽陽性率（False Alarm rates） を測定することで（以前の研究では無視されていた）、RennieらによるCNBの推奨される正規化ステップが、実際には偽陽性を増大させていることを発見した。これは、元のツールの複雑さによって隠蔽されていた欠陥である。

3. コードサイズと依存関係

EZR: 400行のコード、Python標準ライブラリのみ、インストールサイズ 1 MB 未満。
SOTA比較対象: 多くの場合 20万行を超え、再現性のために pandas, sklearn, numpy および重い計算クラスターを必要とする。

意義と主張

本論文は、AIがすべてのタスクにおいて普遍的に単純であるとか、LLMがすべての用途において時代遅れであると主張しているのではない。むしろ、表形式のSE最適化 に関して、より限定的で控えめな主張を行っている：

「コードを読むこと」は有効な研究手法である: 著者らは、「コードを読み、リファクタリングすること」が洞察を生むための有用な手法であると主張している。アルゴリズムをその核となる部分まで削ぎ落とすことで、一見すると別個のアルゴリズム（ナイーブベイズ、k-means、SA）が、少数の共有コードへと収束することを実証した。
ミニマリズムは複雑性に匹敵する: 軽量で統一されたツールキットは、大規模で専門化されたライブラリに匹敵する。「重厚な」アプローチは、多くの場合、性能の比例的な向上をもたらすことなく、不必要な複雑性、メンテナンスの負担、および計算コストを導入する。
仮定の再評価: 結果は、「より多くのデータと特徴量が常に優れたモデルをもたらす」という「ノーフリーランチ」の仮定に疑問を投げかけている。テストされた領域では、「少ないことは、より良いこと（less is more）」 であった。より少ないラベル、より少ない特徴量、そしてより単純なモデルが、より優れた、あるいは同等の結果をもたらしたのである。
実務上の示唆: 実務者は、重厚なパイプラインを導入する前に、単純なベースラインを実行すべきである。もし単純なモデルが複雑なモデルと同等の性能を示すのであれば、その複雑なモデルは「技術的負債」である。

著者らは、生成や知覚のタスクにおいては「AIは新しいコンパイラである」というナラティブが成立するかもしれないが、表形式の最適化の領域においては、「注意深い読み込みと単純化」 が依然として効率性と洞察を生み出す強力なツールであることを結論づけている。本論文は、コミュニティに対して他の「洗練された」手法に対しても同様の精査を適用することを促しており、それらの多くは単純化可能であることを示唆している。

Can AI be Easy? Lessons Learned from the EZR.py Toolkit