SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

本論文は、LLM エージェントの能力評価を静的なバグ修正から長期的なコード維持管理へと転換させるため、実世界の継続的インテグレーション(CI)ループに基づき、100 のタスクで構成される初のリポジトリレベルベンチマーク「SWE-CI」を提案するものです。

Jialong Chen, Xander Xu, Hu Wei, Chuan Chen, Bing Zhao

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🛠️ 「SWE-CI」の解説:AI 開発者の「長期的な頑丈さ」を測る新しいテスト

この論文は、「AI(人工知能)がコードを書く能力」を評価する新しい方法について書かれています。

これまでの評価は、「一度きりの課題を正しく解けるか?」という**「瞬間写真(スナップショット)」のようなものでした。しかし、現実のソフトウェア開発は、一度作って終わりではなく、「何年もかけて育てていく」**ものです。

この論文では、AI が**「長期的にコードを維持・進化させる能力」**を測るための新しい基準「SWE-CI」を提案しています。


🍕 比喩で理解する:「ピザの注文」と「長期的な家作り」

1. 従来の評価(SWE-bench など):「注文されたピザ」

これまでのテストは、こんな感じでした。

「ピザ屋(AI)さん、今すぐ『チーズとトマトのピザ』を作って!」
→ AI がピザを渡す。
→ 客が「美味しいね!」と食べて終了。

これで「正解」なら、AI は優秀とされます。でも、**「明日、客が『じゃあ、具材を全部乗せて、サイズも大きくして、そして翌日また変更して』と言ってきたらどうなる?」**というテストはされていませんでした。

2. 新しい評価(SWE-CI):「長期的な家作り」

SWE-CI は、これを**「家を建てて、何年も住みながら増築・改修していく」**ことに例えます。

  • シナリオ:
    • スタート: 小さな木造の家(ベースのコード)。
    • ゴール: 3 年後の立派なマンション(目標のコード)。
    • 過程: 233 日間、71 回もの改修(コミット)を繰り返します。
    • 課題: 「今日は壁を塗り替えて」「明日は部屋を増やして」「明後日は配線を変えて」と、AI が何十回も作業を繰り返さなければなりません。

ここで重要なのは
最初の「壁塗り」を雑にやると、後から「部屋を増やす」時に壁が崩れて大変になります。
**「最初の作業が、後の作業を楽にするか、逆に難しくするか」という「長期的な視点」**が問われるのです。


🧩 SWE-CI がやっていること(仕組み)

このテストでは、AI に**「2 人の役割」**を担わせて、現実の会社のようなチームワークを再現します。

👨‍💼 1. アーキテクト(設計者)

  • 役割: 「今、何が足りないか?」を分析し、**「次の作業の指示書」**を書きます。
  • : 「今のコードだと、新しい機能が追加しにくいから、まずは土台を整理しよう。具体的な実装は後で考えるから、まずは『どんな動きが必要か』だけ決めてね」と指示します。
  • ポイント: 一度に全部を指示せず、「急ぎの 5 つ」だけを選んで、無理のない範囲で指示します。

👷‍♂️ 2. プログラマー(実装者)

  • 役割: アーキテクトの指示書を見て、実際にコードを書き換えます
  • : 「なるほど、土台を整理するんだ。じゃあ、このファイルに新しいクラスを追加しよう」と作業します。

この**「設計 → 実装 → テスト → 失敗したら修正 → 再設計」**というループを、20 回も繰り返します
最終的に、最初の小さな家から、目標の立派なマンションまでたどり着けるかが勝負です。


📊 評価のポイント:「EvoScore(進化スコア)」

ただ「ゴールにたどり着けたか」だけでなく、**「道中がどうだったか」**を評価します。

  • 良い AI: 最初の作業を丁寧に行うので、後々の改修がスムーズに進む。スコアが高い。
  • 悪い AI: 最初の作業を適当に済ませて、テストは通ったけど、後から「あ、これ直さないと次進めない!」という**「技術的借金(テック・デット)」**を積み重ねる。スコアが下がる。

まるで**「最初の基礎工事がしっかりしていないと、後から増築するたびに家が揺れて危なくなる」**ようなものです。


🔍 実験の結果:AI はどうだった?

18 社の AI モデル(Claude, GPT, DeepSeek など)にテストさせた結果、面白いことがわかりました。

  1. AI は進化している: 新しいモデルほど、長期的なコード維持が上手になっています。
  2. 会社によって「性格」が違う:
    • 長期的思考派: 最初は遅くても、後々楽になるように丁寧にする AI(例:MiniMax, DeepSeek)。
    • 短期的思考派: 今すぐテストをパスすることに集中し、後でバグが起きても気にしない AI(例:Kimi, GLM)。
  3. まだ課題がある:
    • 多くの AI は、長い作業を続けるうちに**「前の作業を壊してしまう(リグレッション)」**ことが多発しました。
    • 100 回中 75 回以上は「前の作業を壊す」失敗をしており、**「完全に自動で長期間のメンテナンスをする」**段階にはまだ達していないことがわかりました。

🎯 まとめ

この論文が伝えたかったことはシンプルです。

「AI が『正解』を出す能力」はもう十分かもしれない。でも、AI が『長期的に良いものを育てる能力』はまだ未熟だ。」

SWE-CI は、AI が**「一夜漬けでテストを突破する学生」ではなく、「何年もかけて建物を建てていく熟練の職人」**になれるかどうかを測る、新しい物差しなのです。

これからの AI 開発は、**「速さ」だけでなく「持続性」**が問われる時代に入りました。