Each language version is independently generated for its own context, not a direct translation.

「SpHOR」：AI に「知らないもの」を見分ける力を教える新しい方法

この論文は、人工知能（AI）が「訓練データに含まれていない未知のもの」を正しく見分けられるようにする、新しい技術「SpHOR」について説明しています。

専門用語を排し、日常の例えを使ってわかりやすく解説します。

1. 問題：AI は「知らないもの」を「知っているもの」だと勘違いしやすい

普段、私たちが使う AI（画像認識など）は、**「閉じた世界」で動いています。
例えば、犬の画像を 5 種類（柴犬、ゴールデンレトリバーなど）だけ教えて訓練した AI は、テストで「猫」の画像を見せると、「これは柴犬の一種に違いない！」**と自信を持って誤って分類してしまいます。

これを**「未知のクラス（Open-set）」**の問題と呼びます。
安全な社会（自動運転や医療診断など）では、「これは知らないものだから、人間に確認してください」と言えることが非常に重要です。

しかし、従来の AI は「知っているもの」に似ている未知のもの（例：柴犬に似ている別の犬種）を、**「 familiarity trap（馴染みの罠）」**に陥れ、高い確信を持って間違えて分類してしまいます。

2. 解決策：SpHOR（スプーア）という新しいアプローチ

この論文の著者たちは、AI の「脳の仕組み（特徴量）」そのものを、未知のものを見分けやすいように設計し直しました。彼らが提案したのが**「SpHOR」**です。

これを理解するために、**「巨大な図書館」と「円形の広場」**の例えを使ってみましょう。

① 従来の方法：バラバラの棚（ユークリッド空間）

従来の AI は、本（データ）を「棚」に並べるように分類していました。

問題点: 棚は無限に伸びていて、本がどこにでも置けてしまいます。また、「柴犬」と「猫」の棚が近すぎると、似ている本（未知の犬）が「柴犬の棚」に勝手に置かれてしまいます。

② SpHOR の方法：円形の広場（球面上の表現）

SpHOR は、AI の頭の中を**「巨大な球面（ドーム型の広場）」**に変えます。

ルール: すべての本は、このドームの表面に置かれます。
メリット: 広場には「外側」がありません。未知のものは、既知のグループから遠く離れた「広場の真ん中」や「隙間」に置かれるようになります。

3. SpHOR の 3 つの魔法

SpHOR がどのようにしてこの「円形の広場」を整理整頓するか、3 つの工夫を解説します。

魔法①：「真向かい」に配置する（直交するラベル）

例え: 広場の中心から、それぞれの「犬のグループ」や「猫のグループ」への道筋（ラベル）を引きます。
工夫: 従来の方法は、道筋が少し重なり合ったり、同じ方向を向いたりしていました。SpHOR は、「柴犬の道」と「猫の道」が、90 度（直角）に交わるように強制的に配置します。
効果: これにより、グループ同士の混同が防げます。未知のものが「どっちのグループにも属さない場所」に置かれやすくなります。

魔法②：「均等」に散らす（球面上の制約）

例え: 広場の表面に、グループごとの「拠点」を配置します。
工夫: 拠点同士が寄り集まったり、偏ったりしないよう、**「均等に散らばるように」**設計します。
効果: 既知のグループが広場の表面をきれいにカバーし、その「隙間」が未知のものを受け入れるスペース（オープンスペース）になります。

魔法③：「混ぜる」ことで強くなる（ミックスアップとラベル平滑化）

例え: 訓練中に、あえて「柴犬の画像」と「猫の画像」を半々で混ぜた「モザイク画像」を作ります。
工夫: AI に「これは 50% 柴犬、50% 猫です」と教えます。
効果: AI は「完全な柴犬」や「完全な猫」だけでなく、**「中間的な曖昧な状態」**も理解するようになります。これにより、未知のものに対して「これは柴犬だ！」と過剰に自信を持つのを防ぎ、「これはよくわからないな（未知だ）」と判断する能力が身につきます。

4. 結果：なぜこれがすごいのか？

この方法を実験で試したところ、以下の成果が得られました。

未知のものを見抜く力（AUROC）が向上: 既知のものと未知のものを、より明確に区別できるようになりました。
「馴染みの罠」からの脱出: 似ている未知のものでも、誤って「知っているもの」と判断する回数が減りました。
計算が速い: 従来の高度な方法に比べて、計算コストが少なく、小さなデータセットでも安定して動きます。

まとめ

SpHOR は、AI に**「知っているもの」をきれいに整理し、その隙間を「未知のもの」のための安全地帯として確保する**新しい教育法です。

従来の AI が「知らないものを無理やり知っているものだと解釈しようとする」のに対し、SpHOR は**「知らないものは、知らない場所（未知の領域）に堂々と置こう」**と教えることで、より安全で信頼性の高い AI 作りを実現しました。

これは、医療診断で「見慣れない病変」を見逃さなかったり、自動運転で「訓練データにない奇妙な物体」を認識したりする未来に大きく貢献する技術です。

Each language version is independently generated for its own context, not a direct translation.

SpHOR: 深層ニューラルネットワークにおける未知クラス同定のためのオープンセット認識に関する表現学習の視点

本論文は、安全クリティカルなアプリケーションや現実世界での応用において不可欠なオープンセット認識（OSR）の課題に取り組み、深層ニューラルネットワーク（DNN）の表現学習の観点から新たなアプローチ「SpHOR」を提案しています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細にまとめます。

1. 問題定義と背景

従来の分類アルゴリズムは「クローズドセット」を前提としており、テストデータが訓練時に既知のクラスに属すると仮定しています。しかし、現実世界では訓練データに含まれない未知のクラス（未知クラス）がテストデータに混入する可能性があります。

OSR と OOD 検出の違い:
- OOD（Out-of-Distribution）: 既知のクラスであっても、データ分布が異なる（例：異なる撮像モードの医療画像）場合を扱います。
- OSR: 既知のクラスとは意味的（セマンティック）を扱います。
主要な課題:
- 既存の OSR 手法の多くは、特徴抽出器と分類器を同時に学習させるため、未知データに適応しにくい表現を生成してしまいます。
- 既存の汎用的な表現学習（教師あり対照学習など）は、OSR 用に特別に設計されていないため、未知クラスと既知クラスが特徴空間で混在しやすくなります。
- Familiarity Trap（親しみ罠）: 未知クラスが既知クラスと非常に似ている場合、モデルは高い確信度で誤って既知クラスとして分類してしまいます。これは、特徴空間がクラス固有の特性ではなく、クラス間で共有される背景やテクスチャなどの属性に依存している場合に発生します。

2. 提案手法：SpHOR

SpHOR は、分類器の学習に先立ち、教師あり表現学習を通じて特徴空間を明示的に整形する「2 段階のデカップリング学習」を採用しています。

第 1 段階：球面上の表現学習 (Spherical Representation Learning)

この段階では、特徴抽出器（エンコーダ）を訓練し、未知クラスを明確に分離できる表現を学習します。3 つの主要な革新を統合しています。

直交ラベル埋め込みによるクラス固有特徴の強制:
- 各クラスのラベル埋め込みベクトル（ $\mu_c$ ）を互いに直交するように制約します。
- これにより、各クラスの特徴ベクトルが高次元空間内で異なる線形部分空間を占有し、クラス固有の属性を強調します。共有属性への依存を減らし、Familiarity Trap を回避します。
球面制約と von Mises-Fisher 分布:
- 特徴ベクトルを L2 ノルムで正規化し、超球面上に投影します。
- 各クラスを**von Mises-Fisher **(vMF) の混合分布としてモデル化します。これにより、特徴空間を有界化し、開放空間（open-space）のリスクを低減します。
- **vMF Alignment Loss **(vMFAL): 特徴ベクトルと対応するラベル埋め込みの整合性（Alignment）を最大化しつつ、クラス間の均一性（Uniformity）を促進する損失関数を設計しました。
**Mixup と Label Smoothing **(LS)
- 表現学習の段階に直接 Mixup（画像とラベルの線形補間）と Label Smoothing を統合します。
- これにより、曖昧な意味を持つサンプル（未知クラスに似たもの）が生成され、モデルが「クラスに属さない空間（open-space）」をより適切に学習できるようになります。

第 2 段階：分類器の微調整

第 1 段階で学習された特徴抽出器（エンコーダ）を固定し、投影ネットワークとラベル埋め込みを破棄します。
学習された特徴を用いて、標準的なクロスエントロピー損失で分類器（ヘッド）のみを微調整します。

3. 主要な貢献

新しい 2 段階デカップリング学習手法の提案:
- 直交ラベル埋め込みと vMF 分布の混合モデルを用いた表現学習（第 1 段階）と、その後の分類器微調整（第 2 段階）を組み合わせた手法を提案しました。
表現学習への Mixup/LS の統合と新指標:
- Familiarity Trap を軽減するために Mixup と LS を表現学習段階に統合しました。
- これらの技術が表現に与える影響を定量化するため、**Angular Separability (AS)（既知・未知クラス間の角度的な分離度）とNorm Separability **(NS)（特徴ノルムによる分離度）という 2 つの評価指標を新たに導入しました。
理論的解析:
- 提案する損失関数が、表現空間における「整合性（Alignment）」と「均一性（Uniformity）」をどのように誘導するかを解析的に示しました。
最先端の実験結果:
- 粗粒度・細粒度の両方の OSR ベンチマークで最先端（SOTA）の結果を達成しました。

4. 実験結果

実験は、Semantic Shift Benchmark (SSB) および Legacy CNN-32 OSR ベンチマークで行われました。

**Semantic Shift Benchmark **(SSB)
- 細粒度データセット（CUB, Stanford Cars, FGVC-Aircraft）において、SpHOR は既存手法（MLS, SupCon, ARPL など）を上回る性能を示しました。
- 特に「Hard」な未知クラス分割において、OSCR（Open Set Classification Rate）で最大5.1%、AUROCで最大**5.2%**の改善を達成しました。
- 事前学習（ImageNet）なしでも競合する性能を維持し、小バッチサイズでの学習においても安定した収束を示しました。
Legacy CNN-32 Benchmarks:
- 粗粒度タスク（SVHN, CIFAR-10, Tiny-ImageNet など）においても、ConOSR や RCSSR などの既存 SOTA 手法を凌駕する AUROC 性能を記録しました。
アブレーション研究:
- Mixup と LS の相乗効果: 両者を組み合わせることで、Angular Separability と Norm Separability が向上し、未知クラスの検出能力が最大化されました。
- **直交正則化 **(ROrtho) ラベル埋め込みの直交性を強制することで、クラス間の分散（Dispersion）が増大し、未知クラスの検出精度が向上することが確認されました。
- 計算効率: 対照学習（SupCon）の $O(B^2)$ 計算量に対し、SpHOR は $O(B \cdot C)$ と線形であり、大規模クラス数やリソース制約のある環境で有利です。

5. 意義と結論

SpHOR は、OSR の課題を「分類器の境界調整」ではなく、「表現空間そのものの構造設計」として捉え直した画期的なアプローチです。

Familiarity Trap の克服: 直交制約と球面表現により、未知クラスが既知クラスに誤って近づくことを防ぎ、より明確な「開放空間」を確保します。
汎用性と効率性: 事前学習の有無やバッチサイズに依存せず安定した性能を発揮し、計算コストも低く抑えられています。
理論的裏付け: 提案手法がなぜ機能するのかを、vMF 分布、整合性、均一性、直交性といった幾何学的な観点から理論的に説明しています。

本論文は、安全クリティカルなシステムや現実世界の複雑な環境において、未知の事象を正確に検知し、誤分類を防ぐための強力な基盤技術を提供するものです。

SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models