Each language version is independently generated for its own context, not a direct translation.

🛠️ 「SWE-CI」の解説：AI 開発者の「長期的な頑丈さ」を測る新しいテスト

この論文は、「AI（人工知能）がコードを書く能力」を評価する新しい方法について書かれています。

これまでの評価は、「一度きりの課題を正しく解けるか？」という**「瞬間写真（スナップショット）」のようなものでした。しかし、現実のソフトウェア開発は、一度作って終わりではなく、「何年もかけて育てていく」**ものです。

この論文では、AI が**「長期的にコードを維持・進化させる能力」**を測るための新しい基準「SWE-CI」を提案しています。

🍕 比喩で理解する：「ピザの注文」と「長期的な家作り」

1. 従来の評価（SWE-bench など）：「注文されたピザ」

これまでのテストは、こんな感じでした。

「ピザ屋（AI）さん、今すぐ『チーズとトマトのピザ』を作って！」
→ AI がピザを渡す。
→ 客が「美味しいね！」と食べて終了。

これで「正解」なら、AI は優秀とされます。でも、**「明日、客が『じゃあ、具材を全部乗せて、サイズも大きくして、そして翌日また変更して』と言ってきたらどうなる？」**というテストはされていませんでした。

2. 新しい評価（SWE-CI）：「長期的な家作り」

SWE-CI は、これを**「家を建てて、何年も住みながら増築・改修していく」**ことに例えます。

シナリオ:
- スタート: 小さな木造の家（ベースのコード）。
- ゴール: 3 年後の立派なマンション（目標のコード）。
- 過程: 233 日間、71 回もの改修（コミット）を繰り返します。
- 課題: 「今日は壁を塗り替えて」「明日は部屋を増やして」「明後日は配線を変えて」と、AI が何十回も作業を繰り返さなければなりません。

ここで重要なのは：
最初の「壁塗り」を雑にやると、後から「部屋を増やす」時に壁が崩れて大変になります。
**「最初の作業が、後の作業を楽にするか、逆に難しくするか」という「長期的な視点」**が問われるのです。

🧩 SWE-CI がやっていること（仕組み）

このテストでは、AI に**「2 人の役割」**を担わせて、現実の会社のようなチームワークを再現します。

👨‍💼 1. アーキテクト（設計者）

役割: 「今、何が足りないか？」を分析し、**「次の作業の指示書」**を書きます。
例: 「今のコードだと、新しい機能が追加しにくいから、まずは土台を整理しよう。具体的な実装は後で考えるから、まずは『どんな動きが必要か』だけ決めてね」と指示します。
ポイント: 一度に全部を指示せず、「急ぎの 5 つ」だけを選んで、無理のない範囲で指示します。

👷‍♂️ 2. プログラマー（実装者）

役割: アーキテクトの指示書を見て、実際にコードを書き換えます。
例: 「なるほど、土台を整理するんだ。じゃあ、このファイルに新しいクラスを追加しよう」と作業します。

この**「設計 → 実装 → テスト → 失敗したら修正 → 再設計」**というループを、20 回も繰り返します。
最終的に、最初の小さな家から、目標の立派なマンションまでたどり着けるかが勝負です。

📊 評価のポイント：「EvoScore（進化スコア）」

ただ「ゴールにたどり着けたか」だけでなく、**「道中がどうだったか」**を評価します。

良い AI: 最初の作業を丁寧に行うので、後々の改修がスムーズに進む。スコアが高い。
悪い AI: 最初の作業を適当に済ませて、テストは通ったけど、後から「あ、これ直さないと次進めない！」という**「技術的借金（テック・デット）」**を積み重ねる。スコアが下がる。

まるで**「最初の基礎工事がしっかりしていないと、後から増築するたびに家が揺れて危なくなる」**ようなものです。

🔍 実験の結果：AI はどうだった？

18 社の AI モデル（Claude, GPT, DeepSeek など）にテストさせた結果、面白いことがわかりました。

AI は進化している: 新しいモデルほど、長期的なコード維持が上手になっています。
会社によって「性格」が違う:
- 長期的思考派: 最初は遅くても、後々楽になるように丁寧にする AI（例：MiniMax, DeepSeek）。
- 短期的思考派: 今すぐテストをパスすることに集中し、後でバグが起きても気にしない AI（例：Kimi, GLM）。
まだ課題がある:
- 多くの AI は、長い作業を続けるうちに**「前の作業を壊してしまう（リグレッション）」**ことが多発しました。
- 100 回中 75 回以上は「前の作業を壊す」失敗をしており、**「完全に自動で長期間のメンテナンスをする」**段階にはまだ達していないことがわかりました。

🎯 まとめ

この論文が伝えたかったことはシンプルです。

「AI が『正解』を出す能力」はもう十分かもしれない。でも、AI が『長期的に良いものを育てる能力』はまだ未熟だ。」

SWE-CI は、AI が**「一夜漬けでテストを突破する学生」ではなく、「何年もかけて建物を建てていく熟練の職人」**になれるかどうかを測る、新しい物差しなのです。

これからの AI 開発は、**「速さ」だけでなく「持続性」**が問われる時代に入りました。

Each language version is independently generated for its own context, not a direct translation.

SWE-CI: 継続的インテグレーションを通じたコードベース維持におけるエージェント能力の評価

本論文は、大規模言語モデル（LLM）を活用したソフトウェアエンジニアリングエージェントの能力を評価するための新しいベンチマーク「SWE-CI」を提案するものです。既存のベンチマークが「静的なバグ修正」や「単発的な機能実装」に焦点を当てているのに対し、SWE-CI は「長期的なコード維持（メンテナンス）」と「継続的インテグレーション（CI）」のプロセスに特化した評価枠組みを提供します。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 背景と問題定義

近年、LLM ベースのエージェントは SWE-bench などのベンチマークにおいて、静的なバグ修正やコード生成において人間に匹敵する能力を示しています。しかし、現実世界のソフトウェア開発は、単発的な修正ではなく、複雑な要件変更や長期的な機能イテレーション（反復）によって成り立っています。

既存ベンチマークの限界: HumanEval や SWE-bench などの既存の評価は、「スナップショット型（Snapshot-style）」のプロトコルを採用しています。つまり、エージェントは一度の要求に対して一度の解決策（パッチ）を生成するのみです。この方式では、脆い（brittle）修正を行ってテストをパスさせた場合でも、拡張性の高いクリーンなコードを書いた場合でも、同じように「正解」と判定されてしまいます。
真の課題: 実際のソフトウェア開発では、過去の設計判断の積み重ねが将来の変更コストに影響します。初期に技術的負債（Technical Debt）を蓄積すると、その後の進化（変更）が困難になり、最終的にコードの品質が維持できなくなります。
SWE-CI の目的: 単発的な機能正しさを測るのではなく、**「長期的なコード進化の中で、エージェントがコードの品質を維持し続けられる能力」**を評価する新しいパラダイムを確立することです。

2. 手法とアプローチ

2.1 データキュレーション（SWE-CI データセット）

SWE-CI は、現実世界の GitHub リポジトリから構築された 100 タスクからなるベンチマークです。

収集プロセス: 3 年以上メンテナンスされ、500 以上のスターを持ち、依存関係ファイルと単体テストを備えた Python リポジトリから選定。
コミットスパンの抽出: 依存関係が変更されない連続したコミットシーケンスを特定し、ベースコミット（初期状態）とオーラクルコミット（目標状態）のペアを生成。
フィルタリング: 依存関係の不一致、テストの起動失敗、テストギャップが小さいケースなどを除去。最終的に、平均233 日間、71 回の連続コミットにわたる進化履歴を持つ 100 件のタスクが選定されました。各タスクでは、ベースからオーラクルへ移行する際に少なくとも 500 行以上のソースコード変更が必要です。

2.2 評価プロトコル：アーキテクト - プログラマー双エージェント

SWE-CI は、現実の CI ループを模倣する「アーキテクト（Architect）」と「プログラマー（Programmer）」の 2 種類のエージェントによる協調ワークフローを採用しています。

アーキテクトエージェント:
- 現在のコードと目標（オーラクル）のテストギャップを分析。
- 失敗したテストの根本原因を特定し、自然言語で「高レベルな要件定義書」を作成。
- 要件は「漸進的（一度に 5 つ以下の緊急要件）」かつ「高レベル（実装詳細は含めない）」であることが求められます。
プログラマーエージェント:
- 要件定義書に基づき、コードの理解、計画、実装を行う。
- テストギャップに直接反応するのではなく、アーキテクトの要件に基づいてコードを更新。
CI ループ:
- このプロセスを最大 20 回反復し、最終的にオーラクルコミットに関連するすべてのテストをパスすることを目指します。

2.3 評価指標：EvoScore（進化スコア）

単なるパス/フェイルではなく、コードの維持可能性を定量化するための新しい指標を導入しています。

正規化された変化量（Normalized Change, $a(c)$ ）:
- ベースコードからの改善度と、目標コードとの距離を $[-1, 1]$ の範囲で正規化。
- 回帰（Regression：以前通っていたテストが失敗する）は負の値として厳しく評価されます。
EvoScore:
- 反復ごとの正規化変化量の加重平均。
- 重み係数 $\gamma \ge 1$ を設定し、後期の反復（長期的な安定性）に高い重みを付けます。
- 初期のテストを急いでパスさせるだけで技術的負債を蓄積するエージェントはスコアが下がり、長期的にコードを拡張しやすい設計をするエージェントは高いスコアを獲得します。

3. 主要な結果（実験結果）

18 社 18 モデル（Claude, GPT, GLM, DeepSeek など）を用いた大規模実験（100 億トークン以上消費）から以下の知見が得られました。

維持能力の加速的な進化:
- 同じプロバイダー内では、新しいモデルほどスコアが高く、2026 年以降のモデルは顕著な向上を示しています。LLM の能力は「静的バグ修正」から「長期的なコード維持」へと急速に進化しています。
- Claude Opus シリーズが全体的に卓越した性能を示し、GLM-5 も強力なパフォーマンスを発揮しました。
プロバイダーごとの維持可能性への重視度の違い:
- 重み係数 $\gamma$ を変化させて評価すると、モデルのランキングが変動しました。
- MiniMax, DeepSeek, GPT は長期的な利益（ $\gamma > 1$ ）を重視する傾向があり、Kimi や GLM は短期的な成果を重視する傾向がありました。Qwen, Doubao, Claude は設定によらず安定していました。これは各社のトレーニング戦略の違いを反映していると考えられます。
長期的な回帰（Regression）制御の課題:
- 最も重要な発見の一つは、**「現在の LLM は長期的なメンテナンスにおいて回帰（既存機能の破壊）を制御するのが依然として困難である」**という点です。
- 全タスクで回帰が発生しなかった「ゼロ・リグレッション率」は、ほとんどのモデルで 0.25 未満でした（Claude-opus 系列の一部のみ 0.5 を超える）。
- これは、スナップショット型のタスクでは高い精度を示すモデルでも、多段階の継続的開発においては、安定性を保ちながらコードを進化させる能力にまだ大きな課題があることを示しています。

4. 意義と貢献

評価パラダイムの転換: ソフトウェアエンジニアリングにおけるエージェント評価を、「単発的な正解」から「長期的な維持可能性」へとシフトさせる最初のベンチマークを提供しました。
EvoScore の提案: 技術的負債の蓄積や回帰を考慮した、長期的なコード品質を測定する新しいメトリクスを定義しました。
現実的なシミュレーション: 現実の開発プロセス（要件分析、設計、実装、テストの反復）を双エージェントで再現し、LLM の実用性に関するより深い洞察を提供しています。
将来の指針: 現在の LLM が長期的な開発タスクにおいて直面する課題（特に回帰制御）を明確にし、今後のモデル開発やトレーニング戦略において「維持可能性」を重視する必要性を浮き彫りにしました。

SWE-CI は、LLM が単なる「コード生成ツール」を超えて、真の「ソフトウェアエンジニアリングパートナー」として機能するための重要な評価基準となります。

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration