原著者： Körösi-Szabo, P., Kovacs, G., Csiszarik, A., Forrai, B., Laki, J., Szocska, M., Kovats, T.

公開日 2026-03-27

📖 1 分で読めます☕ さくっと読める

原著者： Körösi-Szabo, P., Kovacs, G., Csiszarik, A., Forrai, B., Laki, J., Szocska, M., Kovats, T.

原論文は CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ⚕️ これは査読を受けていないプレプリントのAI生成解説です。医学的助言ではありません。この内容に基づいて健康上の判断をしないでください。免責事項の全文を読む

この論文は、**「HealthFormer（ヘルスフォーマー）」という新しい AI 技術について書かれています。これを一言で言うと、「患者の過去の医療記録を、まるで物語のように読み解いて、将来の病気を予測する天才的な読書家」**のようなものです。

難しい専門用語を使わず、日常の例え話を使って解説しますね。

1. 従来の問題点：「バラバラの断片」

まず、従来の医療 AI はどんな感じだったか想像してみてください。
患者の医療記録（EHR）は、病院の受診、薬の処方、検査結果などが、**「いつ」「どこで」「何をしたか」**という形で記録されています。

従来の AI の悩み：
- 記録が「バラバラ」すぎる。
- 「1 回の受診」に「風邪の診断」「薬の処方」「レントゲン」など、複数の情報が混ざっているのに、AI はそれを「ただの 1 つの単語」や「袋に入ったごみ」のように扱ってしまい、「この 3 つはセットで重要なんだ！」という関係性を見逃してしまうことがありました。
- また、「時間」の感覚が鈍いのです。「昨日の受診」と「3 年前の受診」を、同じ重みで扱ってしまったり、正確な「日数」の差を無視して「1 月前」「2 年前」のように大まかに分類してしまったりしていました。

2. HealthFormer の解決策：「2 段階の読み方」と「正確な時計」

HealthFormer は、この問題を解決するために、**「2 つのレベル」**で記録を読み解く特別な仕組みを持っています。

レベル 1：その日の「出来事」を深く理解する（イベント内エンコーダー）

ある日、患者が病院に行ったとします。そこには「診断名」「処方された薬」「行った施設」など、複数の情報が含まれています。

アナロジー： これは**「料理のレシピ」**に似ています。
- 従来の AI は、「材料（トマト、玉ねぎ、肉）」をただのリストとして見ていました。
- HealthFormer は、**「トマトと玉ねぎを炒めて、肉を加える」という「調理プロセス（関係性）」**を重視します。
- 1 回の受診（イベント）の中で、どの診断とどの薬がセットになっているかを、AI が「注意深く」見極めて、1 つの「出来事の要約（イベントの埋め込み）」を作ります。

レベル 2：長い「人生の物語」をつなぐ（イベント間エンコーダー）

次に、その「出来事」が過去 10 年間にわたってどう続いたかを考えます。

アナロジー： これは**「映画のシーン」**をつなぐ監督のようです。
- 従来の AI は、シーンとシーンの間隔を「前編・中編・後編」のように大まかに区切っていました。
- HealthFormer は、「正確な時計」を持っています。「この出来事から、次の出来事まで正確に 3 日か、3 ヶ月か、3 年か」を計算し、その「時間的な間隔」が重要だと理解します。
- 3 日前の受診と 3 年前の受診では、意味が全く違うことを AI が自然に理解できるように設計されています。

3. 学習方法：「先生なしで勉強する」

この AI は、最初から「がんになるか？」という答えを知っているわけではありません。

アナロジー： 膨大な数の**「医療記録の図書館」に放り込まれ、「穴埋め問題」や「次は何が来るか？」**というゲームを自分で解いて勉強します。
- 「この受診記録から、消えた診断名を当ててごらん」
- 「この患者の次にどんな受診をするか予想してごらん」
- 「次の受診まで何日かかるか予想してごらん」
- これらを何百万人ものデータで繰り返すことで、AI は**「病気の進行パターン」や「薬と診断の関係性」**を、人間が教えることなく自ら見つけ出します（これを「自己教師あり学習」と呼びます）。

4. 結果：「がん」の早期発見に大活躍

この AI を実際にテストしたところ、「大腸がん」や「前立腺がん」が、30 日、60 日、90 日後に発症するかどうかを予測する能力が、従来の統計手法（ロジスティック回帰など）よりも圧倒的に優れていることがわかりました。

なぜ強いのか？
- 従来の方法は「最近よく病院に来ているから危険」といった単純なカウントでしたが、HealthFormer は**「3 年前に特定の薬を飲み、1 ヶ月前に特定の検査をして、昨日の受診で特定の症状が出た」という、複雑なストーリーのつながり**を読み取れるからです。

5. まとめ：なぜこれが画期的なのか？

HealthFormer の最大の強みは、**「一度勉強すれば、どんな病気でも使える」**ということです。

アナロジー： 一度「医療の物語の読み方」をマスターした**「万能な読書家」**が、新しいジャンル（新しい病気の予測）に出会っても、特別な準備なしにすぐにその物語を読み解けるのです。

結論：
この技術は、患者の複雑で不規則な医療記録を、**「時間と関係性を大切にした物語」**として捉え直すことで、将来の病気をより早く、より正確に予測できる道を開きました。これにより、医師は患者さんの健康リスクをより早く察知し、適切な対策を講じられるようになるかもしれません。

HealthFormer: 不規則な電子医療記録（EHR）イベントに対する二階層時間認識型トランスフォーマー

本論文は、縦断的な電子医療記録（EHR）の複雑な構造と不規則な時間間隔を効果的にモデル化するための新しい深層学習フレームワーク「HealthFormer」を提案しています。以下に、問題定義、手法、主要な貢献、結果、および意義について詳細な技術的サマリーを記述します。

1. 問題定義

縦断的な EHR データは、以下の特性により従来の時系列モデルや単純な集約手法では扱いにくい課題を抱えています。

不規則なイベントシーケンス: 患者の記録は、数日間の間隔から数年間の空白まで、非常に不規則な時間間隔で発生します。
イベント内の多様性（Heterogeneity）: 単一の「受診（Encounter）」イベント内でも、診断（ICD-10）、処置（hPCS）、薬剤（ATC）など、異なるコーディングシステムから複数のコードが混在して発生します。
構造の喪失: 従来の手法では、複雑な受診を単一のトークンや順序のない「コードの袋（Bag-of-codes）」として扱うことが多く、イベント内部のコード間の相互作用や、臨床的に重要な時間的ギャップの情報が失われる傾向があります。
時間表現の粗さ: 離散的な時間バケットや単純な位置エンコーディングでは、臨床的に意味のある連続的な時間経過を十分に捉えきれていません。

2. 手法：HealthFormer アーキテクチャ

HealthFormer は、イベント中心の表現と二階層のトランスフォーマー構造を採用し、上記の課題を解決します。

2.1 データ表現とイベント構築

イベント中心の表現: 患者の履歴を、タイプ付けされたイベントの順序付きシーケンス $E = [e_1, e_2, \dots, e_T]$ として表現します。
イベントの構成: 各イベント $e_t$ は、イベントタイプ（GP 受診、外来、入院、手術、薬剤処方など）、日付、ドメイン固有のコード群（診断、処置、薬剤など）、およびメタデータ（施設情報など）から構成されます。
複雑なエピソードの分解: 入院期間中の手術など、複雑なエピソードは、時間的忠実度を保つために「入院イベント」と「手術イベント」など、複数の原子イベントに分解されます。

2.2 二階層トランスフォーマー構造

モデルは「イベント内（Intra-Event）」と「イベント間（Inter-Event）」の 2 つのエンコーダー階層で構成されます。

Intra-Event Encoder（イベント内エンコーダー）:
- 単一のイベント内に含まれる異種ドメインのトークン（ICD, hPCS, ATC など）を処理します。
- コード固有の埋め込み: 各ドメインごとに専用の埋め込みモジュールを使用し、階層的なコード（ICD-10 など）にはノード埋め込みと深さ埋め込みの和を適用します。
- アテンション・プーリング: イベントタイプをクエリとして、イベント内のトークンをキーとバリューとして用いたアテンション機構により、文脈に応じた重み付けでイベント埋め込みを生成します。
Inter-Event Encoder（イベント間エンコーダー）:
- 生成されたイベント埋め込みのシーケンスを処理し、患者の縦断的な軌跡をモデル化します。
- 時間認識アテンションバイアス（ALiBI 拡張）: 従来の位置エンコーディングの代わりに、イベント間の経過時間（ $\Delta t$ ）の対数に基づいた連続的なアテンションバイアスを導入します（ $B_{i,j} = -s_h \cdot \log(1 + \Delta_{i,j})$ ）。これにより、物理的な時間間隔に応じた注意の局所性を保ちつつ、長期的な相互作用も捉えることができます。
- 日付エンコーダー: 絶対的な日付情報（および患者の年齢など）を正弦波ベースの Time2Vec 埋め込みとしてイベント表現に付加します。

2.3 自己教師あり事前学習（Multi-task Self-Supervision）

大規模な非ラベルデータを用いて、以下の 4 つのタスクでモデルを事前学習します。

コードレベルの MLM: イベント内の特定のコードをマスクし、残りのコードと縦断的文脈から復元するタスク（ドメインごとの分類）。
イベントレベルの MLM: 全イベントをマスクし、周囲のイベントから元のイベントタイプを推論するタスク。
次イベント予測: 現在のイベント表現から、次のイベントのタイプとコードを予測するタスク（因果マスクを使用）。
次イベントまでの時間予測（ $\Delta t$ 回帰）: 次のイベントまでの経過日数を回帰タスクとして予測する。

3. 主要な貢献

イベント中心の異種 EHR 表現: 異なるケア設定（外来、入院など）とドメインを統合し、イベントレベルの構造を保持する統一された患者タイムラインの構築。
二階層・時間認識トランスフォーマー: イベント内の構造とイベント間の時系列ダイナミクスを分離してモデル化し、ALiBI ベースの連続時間バイアスにより不規則なサンプリングを明示的に扱うアーキテクチャ。
多タスク自己教師あり学習: コード、イベントタイプ、時間間隔の各レベルで補完的な目的関数を用いた事前学習により、ロバストな表現を獲得。
階層整合的な埋め込み空間: 事前学習により、ICD-10 診断コードの埋め込み空間が、臨床的な階層構造（ICD のツリー構造）と整合性のある幾何学的構造を持つことを実証。

4. 実験結果

ハンガリーの国民医療保険基金（NEAK）から得られた、約 1000 万人、12 年間の大規模縦断コホートデータを用いて評価を行いました。

4.1 事前学習された埋め込みの解析

学習された ICD-10 埋め込みを t-SNE で可視化した結果、細かな診断コード（深さ 2）が、親カテゴリ（深さ 0）や兄弟カテゴリ（深さ 1）と整合したクラスターを形成していることが確認されました。
頻度の高いコードほど安定したクラスターを形成し、臨床的に共起しやすい症状や疾患が近接して配置される傾向が観察されました。

4.2 下游タスク：新規がん発症予測

大腸がん（CRC）と前立腺がんの発症予測（30 日、60 日、90 日の予測期間）において、ロジスティック回帰ベースラインと比較しました。

評価指標: テストセットにおける AUC（Area Under the Curve）。
結果:
- 大腸がん (CRC): 30/60/90 日予測で、それぞれ 0.81 / 0.75 / 0.73 の AUC を達成。
- 前立腺がん: 30/60/90 日予測で、それぞれ 0.94 / 0.87 / 0.84 の AUC を達成。
比較: 最も強力なベースラインである「時間減衰付き Bag-of-codes（Time-decay bag-of-codes）」モデルと比較して、CRC で約 0.13、前立腺がんで 0.09〜0.11 の AUC 改善を達成しました。
転移学習の効率性: 事前学習済みエンコーダーを固定したプロブ（Probe）学習でも一定の性能を示しましたが、エンドツーエンドのファインチューニングが最も高い性能を発揮しました。

5. 意義と結論

臨床的解釈可能性: 学習された診断埋め込みが ICD 階層と整合していることは、モデルの判断根拠を臨床的に解釈しやすく、医師による検査を容易にします。
汎用性と転移性: 特定のタスク固有の機能設計やアーキテクチャ変更なしに、標準的なファインチューニングを通じて、異なる予測エンドポイント（がん発症、リスク層別化など）へ容易に転移可能です。
実用性: 不規則な時間間隔と多様なコード構造を扱う行政医療データ（Billing data）に対して、従来の集計手法よりも優れた性能を示し、大規模な EHR データを活用した医療 AI の実用化への道筋を示しました。

本研究は、構造化された行政医療記録から、時間的構造とイベント内部の複雑さを同時に捉えることで、より高精度かつ解釈可能な患者表現学習が可能であることを実証しました。

HealthFormer: Dual-level time-aware Transformers for irregular electronic health record events