原著者： Ming Du, Xiangyu Yin, Yanqi Luo, Dishant Beniwal, Songyuan Tang, Hemant Sharma, Mathew J. Cherukara

公開日 2026-05-13

📖 1 分で読めます☕ さくっと読める

原著者： Ming Du, Xiangyu Yin, Yanqi Luo, Dishant Beniwal, Songyuan Tang, Hemant Sharma, Mathew J. Cherukara

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

あなたが研究所で働く科学者だと想像してください。手元には、数千枚のぼやけた微結晶の写真や、古いテレビのノイズのように見える X 線スキャン画像など、無数に散らかった複雑なデータが山積みになっています。このデータから意味を見出すためには、データを整理し、パターンを見つけ、あるいは何かを測定するための特定の指示（アルゴリズム）が必要です。

通常、これらの指示を書くためにコンピュータープログラマーを雇わなければなりません。しかし、もしあなたが平易な英語で必要なことを説明するだけで、ロボット科学者がコードを考え出し、テストし、間違いを修正し、実際に機能するツールをあなたに渡してくれるとしたらどうでしょうか。

それがまさにCVEvolveが実現するものです。

以下に、日常の比喩を用いてその仕組みを簡単に解説します。

1. 問題：「散らかったキッチン」

科学データはしばしば非構造化されています。ノイズが多く、奇妙な色合いを帯びていたり、標準的なコンピュータープログラムが理解できない形式で提供されていたりします。分野の科学者（生物学者や物理学者など）はそれぞれの分野の専門家ですが、コーディングの専門家とは限りません。彼らの特定のデータ問題を解決するためのコードを書くのは、たった一つの特定のケーキを焼くためにカスタムオーブンを建造しようとするようなものです。それは難しく、時間がかかり、彼らが持っていないかもしれないスキルを要求します。

2. 解決策：「自律的なシェフ」

CVEvolve は、その自律的なシェフとして設計された AI システムです。あなたは「材料」（生データ）と「レシピの目標」（例：「これらの X 線画像の中で明るいスポットを見つけよ」）を与えます。これは単に推測するのではなく、自らの「レシピ」（アルゴリズム）を能動的に構築し、テストし、繰り返し改善していきます。

3. 学習の仕組み：「三段階のダンス」

単にランダムな試行を行うのではなく、CVEvolve は人間がパズルを解くときのように、3 つの主要な動きを持つ賢明な戦略を用います。

生成（野生の発明家）： AI はゼロから問題を解決する全く新しい方法を考え出そうとします。まるで新しいアイデアをブレインストーミングするかのようなものです。
調整（微調整者）： 機能する解決策を見つけた場合、それをより良くするためにノブやダイヤルを微調整しようとします。すでに美味しいスープの味付けを調整するようなものです。
進化（混合者）： 機能している 2 つの異なる解決策を取り出し、それぞれの最良の部分を組み合わせて、新しい「スーパー解決策」を作ろうとします。まるで 2 つの異なるレシピの最良の部分を混ぜ合わせて傑作を生み出すようなものです。

4. 秘密のソース：「系譜」と「確率的サンプリング」

論文では「系譜を考慮した確率的候補サンプリング」という用語が言及されています。これを簡単に考え方は以下の通りです。

解決策の系図を想像してください。いくつかの解決策は「親」であり、新しいものはその「子」です。

罠：通常、AI は欲深くなります。次のものを作るために、絶対的に最良のパフォーマンスを発揮する解決策だけを選びます。これはラジオで常にトップ 1 曲だけを聞くようなもので、少し時間を与えれば輝くかもしれない隠れた名曲を見逃してしまう可能性があります。
CVEvolve の修正： CVEvolve は「制御されたランダム性」（サイコロを振るようなもの）を少し用います。現時点で「最良」ではない解決策を、その「下dog」がトップパフォーマーにはない隠れた可能性を持っている場合に備えて、時折選びます。これにより、AI が行き詰まることなく、新しい可能性を探求し続けることを保証します。

5. 安全網：「ブラインド味見テスト」

AI における最大の危険の一つは「過剰最適化」です。練習テストの答えを丸暗記した学生が、特定の質問を丸暗記しただけで概念を理解していないため、本番の試験に失敗する状況を想像してください。

CVEvolve にはホールドアウトテストと呼ばれる特別な安全機能があります。

AI は「開発セット」（練習テスト）で作業します。
学習中は、決して「ホールドアウトセット」（本番の試験）を見ることを許されません。
完璧な解決策を見つけたと判断した後だけ、独立した別のエージェントが、その解決策をホールドアウトセットで実行し、新しい未見のデータで実際に機能するかどうかを確認します。
もし解決策がブラインドテストに失敗した場合、CVEvolve は単に丸暗記していただけだと認識し、最初からやり直します。

6. 実際に行われたこと

この論文では、このシステムを 3 つの現実世界の科学タスクでテストしました。

X 線画像の整列： わずかにずれた微小物体の 2 枚の写真を揃えようとするようなものです。CVEvolve は、以前に使用されていた標準的な手法よりも8 倍正確な方法を見つけ出しました。
「ブラッグピーク」の発見： これらは X 線回折パターンにおける明るいスポットです。データは非常にノイズが多く、AI は背景ノイズに惑わされることなくスポットを見つけなければなりませんでした。その結果、成功率は約 24% からほぼ 84% まで向上しました。
輪とスポットの分離： 一部の画像では、輪（年輪のようなもの）とスポット（星のようなもの）が混在しています。これらは非常に似ています。AI はそれらを区別することを学びました。これは研究されている物質を理解する上で極めて重要です。

結論

CVEvolve は、コーディングを知らない科学者に「这是我的散乱データ、分析方法を考えてください」と言えるようにするツールです。AI は、コードを書き、テストを実行し、視覚的結果を確認し、自らの間違いを修正し、最終結果が新しいデータで実際に機能することを確認する、疲れ知らずの研究助手として機能します。これにより、分析ソフトウェアを書くという困難で技術的な仕事が、会話へと変わります。

技術概要：CVEvolve – 非構造化科学データ処理のための自律的アルゴリズム発見

問題定義

科学データ処理、特にイメージングやビームライン科学の分野では、ドメインの科学者がコンピュータビジョンやソフトウェア工学の専門知識を十分に持っていなくても、タスク固有のアルゴリズムを開発する必要があります。既存の自動手法発見システム（AutoML、ニューラルアーキテクチャ探索など）は、主に明確なトレーニングデータ、制約された設計空間、スカラー目的関数を持つ構造化された最適化問題向けに設計されています。これらは、単一の画像、回折パターン、または高ダイナミックレンジ、ノイズ、疎なラベルを伴う緩やかに指定されたログとして現れることのある「厄介な」非構造化科学データの実態には対応しきれません。さらに、多くの既存のエージェントシステムは、未見のデータ（ホールドアウトセット）上でのパフォーマンスを追跡するメカニズムを欠いており、過最適化を招き、科学アーティファクトの診断に必要な視覚的検査機能を提供できないことが多いです。

手法

CVEvolve は、事前定義された問題テンプレートや硬直的なワークフローに依存することなく、科学データ処理アルゴリズムを発見し構築するための自律的エージェントハarnessです。これは、コード、データ、メトリクス、履歴、視覚出力を含む共有ループ内で多ラウンド探索プロセスを管理するメタアルゴリズムとして機能します。

コアアーキテクチャとワークフロー

本システムは LangGraph ベースのエージェントフレームワークを基盤として構築され、以下の 3 つの主要な段階を通じて動作します。

準備: エージェントはタスクデータを検査し、自然言語記述から最適化メトリクスを確立し、最小限の評価ハarnessを構築します。
ベースライン評価: エージェントは、ユーザーが提供した、または提案されたベースラインアルゴリズムを評価し、パフォーマンスのベンチマークを確立します。
アルゴリズム開発: システムは、コントローラーが 3 つの戦略的アクションのいずれかを選択するラウンドからなる発見ループに入ります。
- 生成 (Generate): タスク特性と過去の失敗に基づいて、実質的に新しい候補を提案します。
- 調整 (Tune): ハイパーパラメータの調整や微細な改善を行うことで、単一の親候補を洗練させます。
- 進化 (Evolve): 2 つの親候補から強みを組み合わせる（交叉）、または 1 つの候補しか存在しない場合は積極的な突然変異を実行します。

主要な技術コンポーネント

系統意識型確率的サンプリング: 探索と利用のバランスを取るため、CVEvolve は MAP-Elites に着想を得たギブス分布を用いて親候補をサンプリングします。候補は系統（継承関係）によってグループ化されます。温度パラメータ（ $\tau$ ）は、ランクは低いものの有望な可能性を持つ系統を選択する確率を制御し、探索が早期に単一の incumbent（現行最良解）に収束するのを防ぎます。
エージェント駆動型ホールドアウトテスト: 過最適化を防ぐため、CVEvolve は「ホールドアウトテストエージェント」と呼ばれる独立したエージェントを採用します。このエージェントは、メインの探索エージェントが決して見ることのない予約されたホールドアウトデータセット上で動作します。メインエージェントはコンパクトな実行契約（スクリプトと依存関係）を提供し、ホールドアウトエージェントは評価を独立して実行し、データを開発ループに露出させることなくメトリクスを記録します。
視覚化と検査: システムには、高ダイナミックレンジ、外れ値、TIFF などのロスレス形式を処理して、エージェントが閲覧可能な PNG 画像として科学画像をレンダリングするツールが含まれています。これにより、エージェントは中間結果を検査し、視覚的に失敗モードを診断することが可能となり、テキスト中心のコーディングエージェントでしばしば欠落している能力を補完します。
動的環境管理: 事前設定された環境を必要とするシステムとは異なり、CVEvolve はエージェントが自身のローカルランタイムを管理することを可能にします（例：依存関係のインストールと実行に uv を使用）。これにより、発見プロセスの一部として壊れたスクリプトの修復やワークスペースの構成が可能になります。
状態管理: 探索履歴は、コンテキストメモリやベクトルベースの RAG のみに依存するのではなく、永続的な SQLite データベースに保存されます。これにより、系統、メトリクス、候補アーティファクトの構造化された記録保持が保証され、決定論的なランキングとセッションの回復が可能になります。

主要な貢献

本論文は、以下の具体的な貢献を概説しています。

汎用エージェントフレームワーク: 非構造化問題に特化した自律的アルゴリズム発見のためのシステム。事前定義されたモデリングパイプラインや硬直的な評価ハarnessの必要性を排除します。
科学視覚化サポート: 高ダイナミックレンジ、外れ値に対する堅牢性、定量的画像情報の忠実なレンダリングをサポートするように設計された、科学データ専用のツール。
長期視野の探索ハarness: 生成、調整、進化のアクションを、系統意識型状態管理と過最適化を検出するためのエージェント駆動型ホールドアウトテストメカニズムと組み合わせたシステム。
メトリクスの翻訳: ユーザーが提供するメトリクスの記述を実行可能な評価手順に変換するエージェントの能力。
ランタイムの柔軟性: エージェントが自身の実行環境を構築・管理することを可能にし、事前設定されたセットアップへの依存を軽減します。
実証的デモンストレーション: 3 つの異なる科学イメージングタスクにおけるフレームワークの検証。

実験結果

CVEvolve は、Claude Opus 4.6 モデルを使用して、3 つの非構造化科学イメージングタスクで評価されました。

X 線蛍光 (XRF) 画像登録:
- タスク: 異なる鮮明さを持つノイズの多い高ダイナミックレンジの XRF 画像の並進登録。
- 結果: CVEvolve は、平均ユークリッド距離誤差が0.12となる解析的アルゴリズムを発見しました。これは、総当たりベースライン（0.98）に対して約 8 倍の改善であり、500 反復でプラトーに達する必要があった以前の OpenEvolve 実装（0.23）よりも著しく優れていました。
- 一般化: ホールドアウトテスト誤差は開発誤差とほぼ一致しており、過最適化なしで堅牢な一般化を示しています。
ブラッグピーク検出:
- タスク: ノイズの多い背景と異なるピーク形状を持つ X 線回折画像におけるブラッグピークの特定。
- 結果: ホールドアウト F1 スコアはラウンド 5 でピーク（0.788）に達し、その後のラウンドで低下しました。これは、小さな開発セットへの過学習が発生する前に最適な候補を特定するためのホールドアウト追跡の有用性を示しています。最良の候補は、F1 スコアをベースラインの 0.298 から 0.788 に改善し、適合率（Precision）は 0.237 から 0.839 に上昇しました。
高エネルギー回折顕微鏡 (HEDM) セグメンテーション:
- タスク: 多結晶回折画像における粉末リングとブラッグピークの区別。
- 結果: エージェントは、対数変換、半径方向の背景推定、一貫性テストを含むワークフローを発見しました。最良の候補は、ホールドアウトセット（ラウンド 16）で重み付き IoU 0.50を達成し、ベースライン（0.37）を著しく上回りました。

確率的サンプリングの検証:
合成 2 次元関数の最大値を見つけるという「玩具問題」の実験において、高い温度（ $\tau=5$ ）を用いた確率的サンプリングは、局所最適解から脱出し、6 ラウンド以内のすべての試行で大域的最適解を見つけることを示しました。一方、決定論的サンプリング（ $\tau=0$ ）は、30 ラウンド以内の 5 試行のうち 3 回で最大値を見つけることができませんでした。これは、性能が低いものの有望な系統を探索することの重要性を浮き彫りにしています。

意義と主張

本論文は、CVEvolve が、ドメインの科学者が堅牢で解釈可能、かつタスク固有のデータ処理手法を開発する際の障壁を低下させることで、より自律的な科学発見ワークフローへの一歩を表すと主張しています。

ゼロコードインターフェース: 科学者がカスタム評価スクリプトの作成や複雑な環境の管理を行わずに、自然言語でタスクとデータを記述することを可能にします。
過最適化の克服: エージェントが操作するホールドアウトテストと系統意識型サンプリングを統合することで、自律的アルゴリズム開発における重要な脆弱性に対処し、発見されたアルゴリズムが良好に一般化することを保証します。
ギャップの埋め合わせ: このフレームワークは、現在の AutoML システムの構造化された仮定と、科学データ処理の非構造化された現実との間のギャップを成功裏に埋め、LLM 駆動のエージェントが特定の科学的文脈において、人間が設計したベースラインと競合するか、あるいはそれを超えるアルゴリズムを自律的に合成できることを実証しています。

著者らは、CVEvolve をドメインの科学者の代替としてではなく、手動の試行錯誤によるスクリプト作成から自律的アルゴリズム進化への負担の移行を通じて、実用的な科学データ処理手法の開発を加速するためのツールとして位置づけています。

CVEvolve: Autonomous Algorithm Discovery for Unstructured Scientific Data Processing