Each language version is independently generated for its own context, not a direct translation.

SWE-Fuse：ソフトウェアの「天才修理屋」を作る新しい方法

この論文は、**「SWE-Fuse（スウェ・フュース）」**という、人工知能（AI）を使ってソフトウェアのバグ（欠陥）を自動で直すための新しいトレーニング方法について書かれています。

まるで、**「完璧なマニュアルがないまま、現場で試行錯誤しながら天才的な修理職人を育てる」**ような話です。

🧩 従来の問題点：「壊れた説明書」の罠

これまで、AI にバグを直させるには、「どこが壊れているか」を人間が詳しく説明するデータ（課題の説明）が必要でした。しかし、現実の世界ではこの説明が**「不正確」だったり「矛盾」**していたりすることがよくあります。

例え話：
料理のレシピ（課題説明）に「卵を割って」と書かれているのに、実際には「鍋が焦げ付いているので、まず鍋を洗う必要がある（正解）」という状況だとします。
AI は「卵を割る」という指示に従って失敗し、**「説明書が悪いから、俺はできない！」**と誤解してしまいます。

この「不正確な説明書」に惑わされて、AI が正しい解決策を見つけられなくなることが大きな問題でした。

✨ SWE-Fuse の解決策：2 つの魔法のトレーニング

SWE-Fuse は、この問題を解決するために、AI に2 つの異なるトレーニングを組み合わせるという画期的なアプローチをとっています。

1. 「説明書なし」のトレーニング（Issue-Free Trajectory）

**「説明書に頼らず、自分で探偵になって解決する力」**を養う段階です。

どうやるの？
AI に「壊れているコード」と「テスト結果（エラー）」だけを与え、「課題の説明（レシピ）」は与えません。
どんな効果？
AI は「説明書」に頼らず、エラーメッセージを見て「あ、ここがおかしいな」と自分で推理し、試行錯誤しながら正解にたどり着く方法を学びます。
例え話：
料理人が「味がおかしい」という事実だけを与えられ、「塩を入れすぎたから、水を足して薄める」という自分の経験と推理だけで味を直す練習をします。これにより、どんなに不正確な説明書があっても、自分で正解を見つけられるようになります。

2. 「混乱度」を測るトレーニング（Entropy-aware RLVR）

**「迷っているときは大胆に、自信があるときは慎重に」**という、AI の学習のバランスを取る段階です。

どうやるの？
AI が「次に何をすべきか」を迷っている（確信が持てない）ときは、**「大胆に新しいことを試す」ように励まし、逆に「自信満々」のときは「慎重に行動する」**ように抑えます。
どんな効果？
これにより、AI は「失敗してもいいから新しい方法を試す」という探索を恐れずに行いながら、同時に「安定して良い結果を出す」ことも学べます。
例え話：
迷路を歩く子供に、**「迷子になったら、あちこち探していいよ（探索）」と声をかけ、「道がはっきり見えているときは、その道を進みなさい（安定）」**と教えるようなものです。

🏆 結果：小さなモデルでも大活躍！

この新しいトレーニングを受けた AI（SWE-Fuse）は、驚くべき成果を上げました。

8B（80 億パラメータ）モデル： 既存の最高のモデルより**43%**も多くのバグを解決。
32B（320 億パラメータ）モデル： 既存の最高のモデルより**60%**も多くのバグを解決。

これは、**「巨大で高価なスーパーコンピューター（巨大モデル）」を使わなくても、「賢くトレーニングされた中規模な AI」**でも、世界トップクラスの修理能力を発揮できることを意味します。

さらに、テスト時に「複数の答えを試して一番良いものを選ぶ（TTS）」という工夫を加えると、65% 以上のバグを解決するまで性能が向上しました。

💡 まとめ

SWE-Fuse は、**「不正確な説明書に惑わされないように、AI に『自分で推理して解決する力』を教え込み、学習のバランスを完璧に調整する」**という、ソフトウェア開発の未来を変える素晴らしい技術です。

まるで、**「マニュアルがなくても、現場の状況を見て即座に最適な修理ができる、熟練の職人」**を AI に育て上げたようなものです。これにより、より安価で効率的なソフトウェア開発が可能になるでしょう。

Each language version is independently generated for its own context, not a direct translation.

SWE-Fuse: 技術的概要（日本語）

本論文「SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training」は、大規模言語モデル（LLM）を用いたソフトウェアエンジニアリング（SWE）エージェントの性能向上を目的とした新しいトレーニングフレームワークを提案しています。特に、実世界のデータセットにおける「問題記述（Issue Description）」と「正解パッチ」の不一致という課題に焦点を当て、軽量モデル（8B〜32B パラメータ）でも最先端（SOTA）の性能を達成する手法を確立しました。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 背景と課題 (Problem)

近年、LLM ベースのエージェントは GitHub の実世界の課題（Issue）解決において高い性能を示していますが、以下の重大な課題に直面しています。

高品質な問題記述の不足とノイズ: 実世界のデータセット（例：SWE-smith など）では、問題記述と対応する解決策（パッチ）が整合していないケースが多発しています。
- 具体例: 問題記述が「警告ハンドラのエラー」について述べているのに、正解パッチが「TIFF 画像エンコーディングのロジック修正」を行っているなど、文脈と解決策が完全に無関係な場合です。
エージェントの誤誘導: 不正確な問題記述に基づいて学習すると、エージェントは誤った探索経路をたどり、問題解決能力が制限されます。
データ規模の限界: 高品質な Issue-PR 対は限られており、大規模なトレーニングデータの確保が困難です。

2. 提案手法: SWE-Fuse (Methodology)

SWE-Fuse は、**「問題記述あり（Issue-guided）」と「問題記述なし（Issue-free）」**のサンプルを融合させたトレーニングフレームワークです。主に 2 つのモジュールで構成されます。

2.1 問題記述非依存の軌道学習モジュール (Issue-Free-driven Trajectory Learning)

このモジュールは、モデルが段階的なデバッグプロセスを学習し、ノイズのある問題記述の影響を軽減することを目的としています。

多段階軌道構築 (Multi-step Trajectory Construction):
- 128 の GitHub リポジトリから 5 万件以上の事例を収集し、サンドボックス環境で再現可能なタスクを構築。
- 教師モデル（Gemini 3）を用いて、思考プロセス（Reasoning）と行動（Action）を明示的に分離した高品質な多ターン対話軌道（Trajectory）を生成。
- 思考プロセスを <THOUGHT> タグで明示し、学生モデルに「考えること」を教えます。
軌道データフィルタリング (Trajectory Data Filter):
- Git 悪用防止: 履歴（git log, git show など）から正解パッチを推測する「Git ハッキング」を防ぐため、将来のコミット情報を除去し、該当コマンドを含む軌道を除外。
- 品質フィルタ: 5 回未満の対話、推論ステップの欠落、非英語コンテンツなどを除去。
問題記述非依存の教師あり微調整 (Issue-Free-driven SFT):
- 問題記述を除去し、テストケースのみを提供する「Issue-free サンプル」をトレーニングデータに含めます。
- これにより、モデルは問題記述のノイズに依存せず、テストケースの失敗からシステム的にデバッグする能力を学習します。
- データセットは D_issue（記述あり）と D_issue-free（記述なし）を混合して使用します。

2.2 エントロピー感知型 RLVR トレーニングモジュール (Entropy-aware RLVR Training)

検証可能な報酬（RLVR）を用いた強化学習において、トレーニングの安定性と探索性のバランスを最適化します。

グループサンプリングと相対的アドバンテージ (RLOO): 同じプロンプトに対して複数の軌道を生成し、グループ内の他のサンプルの平均報酬を基準（Baseline）として利用することで、分散を低減したアドバンテージ推定を行います。
エントロピー適応クリッピング (Entropy-Adaptive Clipping):
- 従来の PPO などのクリッピングは固定ですが、SWE-Fuse はサンプルごとの**エントロピー（不確実性）**に基づいてクリッピング幅（ $\epsilon$ ）を動的に調整します。
- 高エントロピー（不確実性が高い）: 探索を促すため、クリッピングを緩くします。
- 低エントロピー（確信度が高い）: 分布の急激な変化を防ぐため、クリッピングを厳しくします。
- これにより、学習の安定性を保ちつつ、効率的な探索を可能にします。

3. 主要な貢献 (Key Contributions)

SWE-Fuse フレームワークの提案: 問題記述のノイズを軽減しつつ、段階的デバッグを学習させるための、Issue-guided と Issue-free サンプルを融合したトレーニング手法を確立。
SWE-Fuse 軌道データセットの公開: 14,000 件以上の検証済みかつ正解の軌道を含む大規模データセットを公開。Issue-free サンプルを含むことで、モデルが記述に依存しないデバッグ能力を習得できるように設計されています。
高性能な実証: オープンソースモデル（8B, 32B）において、SWE-bench Verified 基準で SOTA を更新。特に 32B モデルでは、より大規模なモデルや複雑なトレーニング手法と競合する性能を達成しました。

4. 実験結果 (Results)

SWE-bench Verified における評価結果は以下の通りです。

ベースラインとの比較:
- 8B モデル: 既存の最良の 8B モデル（Klear-Agent-8B-SFT: 39.0%）を大きく上回り、43.0% の解決率を達成（+4.0% 改善）。
- 32B モデル: 既存の最良の 32B モデル（CWM-32B: 53.9%）を凌駕し、60.2% の解決率を達成（+6.3% 改善）。
- 閉源モデル（OpenAI-o3: 58.4%）をも上回る結果を示しました。
テスト時スケーリング (TTS) の効果:
- 推論時に複数の試行を行う TTS@8 を適用することで、さらに性能が向上。
- 8B モデル: 49.8%、32B モデル: 65.2% を達成。
アブレーション研究:
- データ規模: 学習データを増やすほど性能は向上し、14k 軌道で最大性能を発揮。
- Issue-free 比率: 問題記述なしサンプルを 25%〜50% 混入させることで最適化され、100% になると性能が低下。バランスが重要であることが示されました。
- Git ハッキング: 生成された軌道や学習済みモデルが、Git 履歴を悪用して正解を導くことはなく、真の解決能力に基づいていることが確認されました。

5. 意義と結論 (Significance)

SWE-Fuse は、実世界のソフトウェア開発における「不完全な問題記述」という現実的な課題に対して、効果的な解決策を提供します。

軽量モデルの強化: 大規模な計算資源を必要とせず、8B〜32B パラメータのモデルでも、高度な推論とデバッグ能力を習得可能にしました。
ノイズ耐性の向上: 問題記述に依存しない「Issue-free」学習と、エントロピーを考慮した RLVR により、不確実な環境下でも安定した学習を実現。
実用性: 生成されたパッチは、テストケースを改変せず、再現スクリプトを作成して段階的にデバッグするプロセスを踏むことで、より信頼性の高い解決策を導き出します。

本論文は、LLM ベースのソフトウェアエンジニアリングエージェントが、単なるコード生成を超えて、実世界の複雑なバグ修正タスクにおいて人間レベルの能力に迫る可能性を示唆する重要な成果です。

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training