Each language version is independently generated for its own context, not a direct translation.

1. 従来の AI の問題点：「全部同じ間違い」

まず、従来の AI（分類器）がどう考えているか想像してみてください。
AI が「これは**『アフリカゾウ』だ」と思っているのに、実際は『アジアゾウ』だったとします。
また別のケースで、AI が「これは『トヨタ・カローラ』だ」と思っているのに、実際は『ホンダ・シビック』**だったとします。

従来の AI は、この 2 つの間違いを**「同じくらい悪い間違い」だと判断します。
「ゾウ」を「車」に間違えるのと、「アフリカゾウ」を「アジアゾウ」に間違えるのは、AI にとってはどちらも「正解ではない」というだけで、「どれくらい近いか（似ているか）」**という感覚が欠けていたのです。

しかし、人間は違います。

「アフリカゾウ」を「アジアゾウ」と間違えるのは、**「まあ、近いよね（大目に見る）」**と感じます。
「アフリカゾウ」を「トヨタ・カローラ」と間違えるのは、**「全然違う！ひどい間違いだ！」**と感じます。

この「間違いの重さ（セverity）」を考慮するのが、この研究のゴールです。

2. 解決策：「階層（きょうそう）を意識した部屋割り」

この論文が提案するHier-COSという仕組みは、AI の頭の中（特徴量空間）を、**「整理整頓された大きな図書館」**のように作り変えます。

従来の方法（平らな部屋）

従来の AI は、すべての動物や車を、**「同じ大きさの平らな部屋」**に並べています。

「ゾウ」も「車」も、部屋の中で同じ距離感で並んでいます。
そのため、「アフリカゾウ」と「アジアゾウ」の距離が、「ゾウ」と「車」の距離とあまり変わらないことがあります。

Hier-COS の方法（階層のある図書館）

Hier-COS は、**「階層構造を持った図書館」**を作ります。

1 階（入り口）： 「生き物」や「乗り物」といった大きなカテゴリー。
2 階： 「哺乳類」や「車」など。
3 階： 「ゾウ」や「トヨタ」など。
最上階： 「アフリカゾウ」や「カローラ」といった具体的な名前。

この図書館では、**「同じ階層にいるものは、物理的に近い場所に配置される」**というルールがあります。

「アフリカゾウ」と「アジアゾウ」は、同じ「ゾウ」の部屋（階層）にいるので、物理的に隣り合っています。
「ゾウ」と「車」は、建物の違う棟（階層）にいるので、物理的に遠く離れています。

AI はこの「物理的な距離」を学習することで、**「間違えても、物理的に近い（意味的に近い）ものを選んでしまう」**ようになります。これが「より良い間違い（Better Mistakes）」です。

3. 技術的な仕組み：「直交するサブスペース」

では、どうやってこの「図書館」を作っているのでしょうか？
論文では**「直交する部分空間の組み合わせ（Composition of Orthogonal Subspaces）」という少し硬い言葉を使っていますが、「重なり合う透明なシート」**と想像するとわかりやすいです。

基本のシート： 各カテゴリー（ゾウ、車、アフリカゾウなど）ごとに、透明なシートを用意します。
重ね方： 「アフリカゾウ」のシートは、「ゾウ」のシートの上に重ね、「ゾウ」のシートは「哺乳類」のシートの上に重ねます。
直交（Orthogonal）： これらのシートは、互いに干渉しないように（数学的に「直交」するように）配置されています。

これにより、AI は**「アフリカゾウ」を認識する際、自動的に「ゾウ」や「哺乳類」の情報も一緒に引き出せる**ようになります。

従来の AI は「アフリカゾウ」だけを必死に覚えていましたが、Hier-COS は**「アフリカゾウ＝哺乳類＝ゾウ」**というつながりを、数学的な構造そのものに組み込んでいます。
そのため、複雑な階層（12 段階もあるような深い木構造）でも、無理なく学習できます。

4. 新しい評価基準：「HOPS（ホップス）」

これまでの研究では、AI の性能を測る指標（Mistake Severity や AHD など）に大きな欠陥がありました。
「順番」を無視して、ただ「平均距離」を計算していたのです。

例え話：
- 正解：「アフリカゾウ」
- 間違い A：「アジアゾウ」→「キリン」→「カバ」
- 間違い B：「カバ」→「キリン」→「アジアゾウ」
- これまで使われていた指標は、A と B を**「同じくらいの悪さ」**だと評価してしまいました（距離の合計が同じだから）。
- しかし、人間は A の方が「アジアゾウ」が 1 位に来ているので**「まだマシ」**だと感じます。

そこで、この論文では**HOPS（Hierarchically Ordered Preference Score）という新しい指標を提案しました。
これは、「正解に近い順に並んでいるか？」を厳しくチェックするテストです。
「1 位が正解なら最高、2 位が正解なら少し減点、3 位ならもっと減点…」というように、「順番の良し悪し」**を点数化します。これにより、AI が本当に「階層を理解しているか」を正しく測れるようになりました。

5. 結果：「最強の図書館」

この新しい仕組み（Hier-COS）と新しいテスト（HOPS）を使って、4 つの難しいデータセット（飛行機、動物、車など）で実験しました。
その結果、「間違いの重さ」を最小化し、かつ「正解率」もトップクラスを達成しました。

従来の AI： 「正解か不正解か」だけを見て、間違った時はガッカリする。
Hier-COS： 「正解か不正解か」だけでなく、「間違ったとしても、一番近い親戚（類似したクラス）を選んでくれたか」を評価し、その能力を磨き上げた。

まとめ

この論文は、**「AI に『正解』だけでなく、『正解に近い関係性』も教えてあげよう」**という提案です。

仕組み： 階層構造を数学的な「部屋割り（直交する部分空間）」に反映させ、AI が自然に「近さ」を学べるようにした。
評価： 「順番の正しさ」を重視する新しいテスト（HOPS）を導入し、AI の本当の能力を測れるようにした。

これにより、医療診断（「がん」を「良性」ではなく「炎症」だと間違える方が、単なる「風邪」と間違えるよりマシ、など）や、自動運転、商品検索など、「間違いの重み」が重要な場面で、AI がもっと人間らしく、賢く動けるようになる可能性があります。

Each language version is independently generated for its own context, not a direct translation.

Hier-COS: 直交部分空間の合成による深層特徴の階層性認識化

本論文は、画像分類タスクにおける「階層構造（ヒエラルキー）を考慮した深層特徴表現」の学習と評価に関する新しいアプローチを提案しています。従来の分類器はクラスを独立とみなすため、誤分類時の「誤りの重大性（Severity）」を適切に評価できず、既存の階層評価指標にも限界があることを指摘し、これらを解決する新しいフレームワーク「Hier-COS」と評価指標「HOPS」を提案しています。

以下に、論文の技術的要点を詳細にまとめます。

1. 問題設定と背景

1.1 既存手法の限界

独立なクラス仮定: 従来の深層学習モデルは、すべてのクラスを相互に独立であると仮定して訓練されます。しかし、現実のデータ（例：航空機、生物種）には「A は B の一種である」といった意味的な階層関係（部分順序）が存在します。
誤りの重大性の無視: 従来のモデルは、意味的に近いクラス（例：「犬」と「狼」）と遠いクラス（例：「犬」と「車」）を誤分類した場合、同程度の誤りとみなします。しかし、階層構造を考慮すれば、近いクラスへの誤分類の方が「重大性が低い（許容される）」はずです。
評価指標の欠陥: 既存の階層評価指標（Mistake Severity: MS, Average Hierarchical Distance: AHD など）には以下の問題があります。
- 置換不変性: 上位 k 個の予測順序を無視して平均値を計算するため、最悪の順序でも最良の順序でも同じスコアになる可能性があります。
- 木構造への依存: スコアが特定の階層ツリーの形状（高さ、分岐数、偏り）に依存し、異なるデータセット間での比較が困難です。
- 多指標評価の矛盾: 精度（Accuracy）と誤りの重大性（MS）を別々に評価するため、どちらのモデルが優れているか判断が曖昧になります。

1.2 既存の階層認識手法の課題

既存の手法は、追加の分類器を各階層レベルに設置したり、損失関数に複雑な制約を加えたりすることで階層性を学習させます。
これらの手法は、特徴ベクトルが重みベクトルの方向に限定されるため、意味的に近いクラス間の角度分離が小さくなり、学習容量が不足する傾向があります。また、複雑な階層構造に対してクラスごとの適応的な学習容量を提供できていません。

2. 提案手法：Hier-COS

著者は、Hierarchical Composition of Orthogonal Subspaces (Hier-COS) という新しいフレームワークを提案しました。これは、深層特徴を階層構造に整合するベクトル空間にマッピングする手法です。

2.1 階層認識ベクトル空間 (HAVS)

定義: 与えられた階層ツリー $T$ と木距離関数 $D_T$ （ここでは LCA 距離）によって誘導されるベクトル空間 $V_H$ を定義します。
条件: 特徴ベクトル $x$ がクラス $y_i$ に属する場合、 $y_i$ と $y_j$ の木距離が $y_i$ と $y_k$ よりも小さい（意味的に近い）ならば、 $x$ から $y_j$ の部分空間までの距離は、 $x$ から $y_k$ の部分空間までの距離よりも小さくなる必要があります。
$\text{if } D_T(y_i, y_j) < D_T(y_i, y_k) \implies |D_i - D_j| < |D_i - D_k|$

2.2 直交部分空間の合成

直交基底の割り当て: 階層ツリー内のすべてのノード（クラス）に、直交基底ベクトルを一意に割り当てます。
部分空間の定義: 任意のノード $v_i$ $v_{i}$ に対応する部分空間 $V_i$ $V_{i}$ は、そのノードの祖先、自身、および子孫に対応する基底ベクトルによって張られる空間として定義されます。
- 例：ある葉ノード（詳細クラス）の部分空間は、そのノード自体の基底だけでなく、その親やさらに上位の祖先の基底も含みます。
階層的一貫性の保証: この構成により、ある葉ノードに分類された特徴ベクトルは、自動的にその祖先ノードの部分空間内にも存在することになります。これにより、予測された階層パスがツリー上で有効であること（階層的一貫性）が理論的に保証されます。

2.3 学習と適応的容量

変換モジュール: 既存のバックボーン（ResNet や ViT など）から抽出された特徴を、Hier-COS の空間 $V_T$ へマッピングする軽量な変換モジュールを学習します。
適応的学習容量: 複雑なクラス（多くの共通祖先を持つクラス）ほど、対応する部分空間の次元が高くなり、より多くの特徴を表現できます。逆に、単純なクラスは次元が制限されます。これにより、既存手法に欠けていた「クラスごとの適応的な学習容量」が実現されます。
損失関数:
- KL 発散損失 ( $L_{kl}$ ): 階層パス上の重み付けされたターゲット分布と予測分布の KL 発散を最小化します。葉ノードから根ノードへ向かうにつれて重みが指数関数的に増加するように設計され、詳細な識別性と階層的類似性の両方を学習します。
- 正則化項 ( $L_{reg}$ ): 特徴ベクトルが対応する部分空間にスパースに分布することを促し、不要な次元への投影を抑制します。

3. 新たな評価指標：HOPS

既存の指標の問題を解決するため、Hierarchically Ordered Preference Score (HOPS) を提案しました。

概念: 単なる距離の平均ではなく、「予測順序」と「階層に基づく望ましい順序（部分順序）」の一致度を評価します。
計算:
1. 正解クラスに基づき、LCA 距離に応じて各クラスに「ランク（優先順位）」を割り当てます（同じ LCA 距離のクラスは同じランク）。
2. 予測されたクラス順序を、この望ましいランクに変換します。
3. 望ましいランクと予測されたランクの重み付き絶対差を計算し、最悪のケースで正規化してスコア化します。
特徴:
- 順序を考慮: 上位 k 個の予測の順序が正しいかどうかがスコアに反映されます（AHD@k の置換不変性を克服）。
- 木構造への依存低減: 正規化により、ツリーの形状に依存しにくいスコアになります。
- 単一指標: Top-1 精度と誤りの重大性を一つの指標で統合的に評価できます（ $k=1$ の場合、Top-1 精度と一致します）。

4. 実験結果

著者は、4 つの主要な階層データセット（FGVC-Aircraft, CIFAR-100, iNaturalist-19, tieredImageNet-H）で Hier-COS を評価しました。

性能: 提案手法は、すべてのデータセットにおいて、階層評価指標（MS, AHD, HOPS）および Top-1 精度において、既存の最先端手法（SOTA）を上回る、または同等の性能を達成しました。
- 特に、ViT（Vision Transformer）をバックボーンとして使用した場合、iNaturalist-19 などで Top-1 精度が 2.42% 向上しました。
階層的一貫性: 既存手法は追加の制約なしに階層的一貫性を達成するのが困難でしたが、Hier-COS は理論的保証により、高い Full Path Accuracy (FPA) を達成しました。
評価指標の検証: 図 1 の分析により、既存の手法は上位 k 個の予測順序が正しくないケースが多く、AHD@k などの指標ではこの欠陥が隠蔽されていることが示されました。一方、Hier-COS は HOPS において高いスコアを維持し、予測順序の質が優れていることを実証しました。
冻结特徴への適用: 事前学習された ViT の特徴を凍結し、変換モジュールのみを学習させても、階層認識性能が大幅に向上することが確認されました。

5. 論文の意義と貢献

理論的保証: 階層構造と整合するベクトル空間（HAVS）を定義し、直交部分空間の合成によって階層的一貫性が保証されることを理論的に証明しました。
統一フレームワーク: 「階層認識マルチクラス分類」と「階層マルチレベル分類」を単一のモデルで統一的に処理できる初めてのフレームワークです。
適応的学習容量: クラスの複雑さに応じて学習容量を自動的に調整する機構を導入し、既存手法の限界を克服しました。
新しい評価基準: 階層分類の評価における既存指標の欠陥を指摘し、順序と木構造を考慮した新しい指標 HOPS を提案しました。これにより、モデルの性能をより直感的かつ正確に評価できるようになりました。
実用性: 複雑な階層構造を持つ大規模データセット（12 レベルの tieredImageNet-H など）においても有効であり、事前学習モデルとの親和性が高いことを示しました。

結論

Hier-COS は、深層学習モデルが階層構造を本質的に理解し、誤りの重大性を軽減しながら高精度な分類を行うための強力な枠組みを提供します。また、提案された HOPS 指標は、今後の階層分類研究における標準的な評価基準として重要な役割を果たすことが期待されます。

Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces