Each language version is independently generated for its own context, not a direct translation.

この論文は、人工知能（AI）が「数値の予測」をするときの方法について、非常に重要な新しい視点を提供するものです。

一言で言うと、**「AI に『平均値』を当てることだけを褒めるのではなく、『未来の全可能性』をどれだけ上手に描き出せるかを評価しよう」**という提案です。

以下に、難しい専門用語を使わず、日常の例え話を使って解説します。

1. 今までの問題点：「平均」の罠

これまでの AI の評価基準は、**「実際の値と予測値の差（誤差）」**が小さいかどうかを重視していました。
例えば、明日の気温を予測する場合、AI が「20 度」と答え、実際が「22 度」なら、2 度の誤差で「まあまあ良い」と評価されます。

しかし、著者たちはこの考え方に大きな欠陥があると言います。

【例え話：サイコロの平均】
サイコロを振ったとき、出る目は 1 から 6 です。
もし AI が「サイコロの次の出目は3.5です」と予測したら、数学的な「平均値」としては完璧です。
でも、実際にサイコロを振って3.5が出ることはあり得ません。

従来の AI： 「3.5」という平均値を予測する。
現実： 3.5 は存在しない。

このように、「平均値」だけを予測しても、実際の世界（サイコロの目）には当てはまらないことがよくあります。特に、結果が「2 つのピーク」を持つような複雑な現象（例：ある日、天気が「晴れ」か「大雨」のどちらかになりやすく、曇りの日はほとんどない場合）では、平均値（曇り）は全く役に立たない予測になってしまいます。

2. 新しいアプローチ：「確率の地図」を描く

この論文では、AI には**「平均値」ではなく、「未来の全可能性の地図（確率分布）」**を描くことを求めています。

従来の予測： 「明日は 20 度です」（一点の予測）。
新しい予測： 「明日は 15 度から 25 度の間に確率があり、特に 18 度と 22 度に来る可能性が高いです」（分布の予測）。

これにより、AI は「3.5」という存在しない値を言わず、「1 と 6 の間にある可能性」を正しく伝えることができます。

3. 評価基準の変更：「正解の出し方」を変える

ここがこの論文の核心です。
「未来の全可能性」を予測する AI を評価する際、**「どのルールで採点するか」**が AI の振る舞いを変えてしまいます。

【例え話：料理の味付け】

ルール A（平均値重視）： 「味付けが平均的なら高得点」。
- → AI は「誰にでも好かれる平均的な味（塩味）」を出そうとします。
ルール B（極端な味重視）： 「辛味や甘味を正確に出せば高得点」。
- → AI は「辛党」や「甘党」の好みを正確に予測しようとし、平均的な味は避けます。

論文では、**「CRPS（連続ランク確率スコア）」という新しい採点ルールを推奨しています。
これは、「予測した『可能性の地図』が、実際の出来事とどれだけ形が似ているか」**を測るルールです。
従来の「平均値の誤差」を測るルールだと、AI は「平均的な答え」を出そうとして、実際の複雑な現象（2 つのピークなど）を見逃してしまいます。CRPS を使えば、AI は「本当の形」を再現しようとするようになります。

4. 重要な発見：ルールによって AI の性格が変わる

論文の面白い点は、**「採点ルールを変えると、AI が『最適』だと思う答えも変わる」**という事実を指摘していることです。

あるルールでは「A という予測」が最高評価。
別のルールでは「B という予測」が最高評価。

これは、「AI に何をさせたいか（ビジネスの目的）」によって、最適な AI の作り方が違うことを意味します。

金融で「損失を最小化したい」なら、あるルールで訓練する。
天気予報で「大雨を逃したくない」なら、別のルールで訓練する。

つまり、「万能な AI」は存在せず、目的に合わせて AI を微調整（ファインチューニング）する必要があると提唱しています。

5. まとめ：なぜこれが重要なのか？

この論文は、AI 開発者に以下のようなメッセージを送っています。

「平均値」だけを見て満足するな。 現実世界はもっと複雑で、サイコロの「3.5」のような存在しない値を予測しても意味がない。
「可能性の全体像」を予測させよう。 AI には「確率の地図」を描く能力を求めよう。
「目的に合わせた採点ルール」を使おう。 何のために AI を使うか（リスクを避けたいのか、利益を最大化したいのか）によって、AI を訓練するルール（スコアリングルール）を変えなければならない。

結論：
これからの AI は、単に「正解を当てる」ことではなく、**「不確実な未来を、目的に合わせてどう描き出すか」**を評価し、最適化していく時代へ進むべきだと、この論文は力説しています。

Each language version is independently generated for its own context, not a direct translation.

論文要約：分布回帰と表形式基盤モデル：適切なスコアリング則による確率予測の評価

論文タイトル: DISTRIBUTIONAL REGRESSION WITH TABULAR FOUNDATION MODELS: EVALUATING PROBABILISTIC PREDICTIONS VIA PROPER SCORING RULES
著者: Jonas Landsgesell, Pascal Knoll
日付: 2026 年 2 月 27 日（プレプリント）

1. 背景と問題提起

近年、TabPFN や TabICL などの「Prior-Data Fitted Networks (PFN)」は、コンテキスト学習（In-Context Learning）を活用することで表形式データ（Tabular Data）の深層学習を革新し、分類・回帰タスクにおける基盤モデルとして注目されています。これらは従来の勾配ブースティングモデルに代わるものとして、MSE（平均二乗誤差）や $R^2$ などの指標で高い性能を示しています。

しかし、著者らは現在の回帰タスクにおけるベンチマークに重大な欠陥があると指摘しています。

点推定への偏重: 現在のベンチマーク（TabArena や TALENT など）は、MSE や $R^2$ といった「点推定（平均値）」の精度を評価する指標に依存しています。
確率分布の無視: PFN は本来、出力の全分布（ヒストグラムや確率密度関数）を予測する「分布回帰」を行いますが、評価指標が点推定に限定されているため、モデルの真の能力（不確実性の定量化や多峰性分布の捕捉など）が適切に評価されていません。
点推定の限界: 平均値推定は、目標変数が多峰性を持つ場合（例：サイコロの次の出目）に、実現不可能な値（例：3.5）を予測したり、予測区間が空の領域を広くカバーしたりするなどの問題を引き起こします。

2. 提案手法と方法論

著者らは、確率予測の質を評価するために**「適切なスコアリング則（Proper Scoring Rules）」**の導入を提案し、既存のベンチマークを拡張することを提唱しています。

2.1 適切なスコアリング則の活用

スコアリング則 $S(\hat{p}, y)$ は、予測分布 $\hat{p}$ が真の分布 $p$ と一致するときにのみ期待スコアが最小化される性質（厳密な適切性）を持ちます。

CRPS (Continuous Ranked Probability Score): 回帰タスクにおける主要な評価指標として推奨されます。これはすべての分位数に対するピンボール損失の積分であり、予測値と真値の距離を考慮した幾何学的なペナルティを課します。
Log Score (Cross-Entropy): 離散化された回帰を多クラス分類として扱う場合に相当しますが、ビン間の順序関係（例：100 と 10 の誤差は 11 と 10 の誤差より大きい）を無視する欠点があります。
CRLS (Continuous Ranked Logarithmic Score): 対数スコアと CRPS の中間的な性質を持つスコアリング則。
多変量拡張: 多次元出力には Energy Score や Variogram Score を提案しています。

2.2 実験設定

モデル: realTabPFNv2.5 と TabICLv2 を対象としました。
データセット: OpenML の多様な回帰データセット（Abalone, Bike Sharing, Mercedes Benz など）を使用し、ランダムに 3000 サンプルを抽出して 5 分割交差検証を行いました。
ファインチューニング: 事前学習済みのモデルを、異なるスコアリング則（Beta エネルギースコア、CRLS など）でファインチューニングし、その性能を比較しました。
評価指標: MAE, RMSE, $R^2$ のほか、CRPS, CRLS, 95% 区間スコア（IntervalScore）を算出しました。

3. 主要な結果

3.1 ファインチューニングによる性能向上

Beta エネルギースコア ( $\beta=1.8$ ) でのファインチューニング: realTabPFNv2.5 をこの損失関数で微調整すると、MAE, RMSE, $R^2$ , CRPS などのすべての主要指標で、ベースラインモデルに対して統計的に有意な改善（中央値で約 1.5%〜4% 程度の向上）が見られました。
CRLS でのファインチューニング: CRLS を損失関数として使用した場合も、同様に CRPS や区間スコアなどの確率予測指標で顕著な改善（CRPS で約 2.27% 向上）が確認されました。

3.2 モデル間の比較（TabICLv2 vs realTabPFNv2.5）

事前学習済みの TabICLv2 は、realTabPFNv2.5 を上回る確率予測性能を示しました。
特に CRPS や CRLS において、TabICLv2 は多くのデータセットで優位に立ちました（例：Mercedes Benz データセットで CRPS が 20% 以上改善）。
ただし、すべてのデータセットで優れているわけではなく、データセットによっては逆転する場合もありました。

3.3 スコアリング則の選択がモデルの帰納的バイアスに与える影響

理論的考察: 異なるスコアリング則は、異なるタイプの誤差に対して異なるペナルティを課すため、最適な予測モデル（最小化される予測）が異なります。
玩具モデルによる検証: 多峰性の分布を持つ単純なデータ生成プロセスにおいて、CRPS と対数スコア（クロスエントロピー）で訓練したモデルは、収束速度やサンプル効率、そして最終的な予測分布の形状が異なりました。
$\beta$ エネルギースコアの解釈:
- $\beta=1$ は平均絶対誤差（MAE）の最小化（中央値推定）に相当。
- $\beta=2$ は平均二乗誤差（MSE）の最小化（平均値推定）に相当。
- $\beta$ の値を変えることで、モデルがどの統計量（平均、中央値、分位数など）を重視するかを制御できることが示されました。

4. 考察と意義

4.1 実務への示唆

ベンチマークの刷新: 表形式学習のベンチマークは、単なる点推定の精度だけでなく、CRPS などの確率的スコアリング則を含めて評価すべきです。これにより、不確実性を定量化できるモデルの真価が評価されます。
タスク固有の最適化: 金融や医療など、誤りのコストが非対称な分野（例：過小評価と過大評価のリスクが異なる）では、特定のスコアリング則（重み付き CRPS など）に合わせてモデルをファインチューニングまたはプロンプト設計することが重要です。
基盤モデルの適応: 汎用基盤モデルは、ユーザーの特定のリスク構造（スコアリング則）に合わせて適応可能であるべきです。著者らは、タスク固有のトークンによる条件付き確率予測や、ユーザー指定のスコアリング則に基づくファインチューニングの可能性を指摘しています。

4.2 限界と今後の課題

稀な事象（テールイベント）: 最適なスコアリング則の推定は、観測データが存在しない領域（テール）での性能を適切に評価・学習するのには限界があります（認識論的不確実性）。
一般化と特化のトレードオフ: 汎用基盤モデルを特定のスコアリング則に合わせて微調整することと、汎用性を維持することの間のバランスが課題となります。

5. 結論

本論文は、表形式基盤モデルの評価において、点推定中心の指標から適切なスコアリング則（特に CRPS）を用いた分布回帰の評価への転換を強く提唱しています。実験結果は、適切なスコアリング則によるファインチューニングがモデル性能を向上させること、そしてスコアリング則の選択がモデルの帰納的バイアス（どの予測が「最適」か）を決定づけることを実証しました。今後は、特定のビジネスユースケース（金融リスク管理など）に合わせて、スコアリング則を柔軟に指定・最適化できる基盤モデルの開発が期待されます。

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules