PaReGTA: An LLM-based EHR Data Encoding Approach to Capture Temporal Information

Each language version is independently generated for its own context, not a direct translation.

🍽️ 문제: "재료만 나열된 레시피"의 한계

기존의 병원 기록 시스템은 마치 냉장고에 있는 재료들을 그냥 나열한 목록과 같았습니다.

"아스피린 1 개, 두통약 1 개, 우울증 진단서 1 장..."
문제는 순서와 시기가 사라진다는 점입니다. "어제 먹은 약"인지 "1 년 전에 먹은 약"인지, "두통이 심해서 먹은 약"인지 "감기 때문에 먹은 약"인지 구분이 안 됩니다.
기존의 AI 는 이 나열된 목록만 보고 "환자 A 는 두통약이 많으니 두통이 심할 거야"라고 추측했지만, **시간의 흐름 **(Temporal Information)을 놓쳐서 정확한 예측을 못 했습니다.

🚀 해결책: "PaReGTA"라는 새로운 요리법

이 논문은 PaReGTA라는 새로운 방법을 소개합니다. 이는 거대한 언어 모델 (LLM, 즉 AI 의 두뇌) 을 이용해 환자의 기록을 **자연스러운 이야기 **(텍스트)로 바꾸고, 그 이야기를 분석하는 방식입니다.

1. 재료 다듬기 (텍스트화)

기존의 숫자나 코드 대신, 각 진료 기록을 짧은 문장으로 만듭니다.

기존: "2021 년 6 월, 아스피린 1 회"
PaReGTA 방식: "지난번 진료로부터 62 일 후, 아스피린을 복용했습니다."
비유: 단순히 재료를 나열하는 게 아니라, "어제 비가 와서 우산을 썼다"처럼 상황과 시간을 포함해 이야기를 만듭니다.

2. 전문가의 맛보기 (LLM 학습)

이제 이 이야기들을 AI 가 읽게 합니다. 하지만 그냥 읽히는 게 아니라, 의사들이 쓰는 말투에 맞춰 AI 를 훈련시킵니다 (SimCSE 라는 기술).

비유: 일반인용 요리책 (일반 AI) 을 가져와서, 미쉐린 스타 셰프가 쓰는 전문 용어와 뉘앙스에 맞춰 수련시키는 것입니다. 그래야 "두통약"과 "편두통" 사이의 미묘한 관계도 이해하게 됩니다.

3. 요리 완성 (시간을 고려한 요약)

환자는 여러 번 병원에 오는데, 모든 기록을 다 섞으면 혼란스럽습니다. PaReGTA 는 두 가지 방식으로 요약합니다.

**최근성 **(Recency) "어제 먹은 약"이 "1 년 전 약"보다 지금 상태에 더 중요하니까, 최근 기록에 더 큰 점수를 줍니다.
**중요도 **(Importance) "감기"보다 "편두통 치료제"가 이 환자에게 더 중요할 수 있으니, 중요한 기록을 더 크게 강조합니다.
비유: 모든 재료를 다 섞는 게 아니라, 최근에 들어온 신선한 채소와 요리의 핵심 재료를 골라내어 최고의 요리를 완성하는 것입니다.

🔍 왜 이 방법이 특별한가요? (실제 효과)

연구진은 미국 전역의 3 만 9 천 명 이상의 편두통 환자 데이터를 가지고 실험했습니다.

정확도 대폭 상승: 기존의 단순 나열 방식보다 훨씬 정확하게 "만성 편두통"과 "일시적 편두통"을 구별해냈습니다.
약 이름 그대로 사용: 기존에는 약을 '진통제'라는 큰 카테고리로 묶어야 했지만, PaReGTA 는 "타이레놀 325mg"처럼 구체적인 제품 이름 그대로 이해합니다. AI 가 이미 약의 성질을 알고 있기 때문에, 복잡한 분류 작업이 필요 없습니다.
데이터가 적어도 잘 작동: 거대한 데이터를 많이 먹어야 하는 다른 AI 들과 달리, 이 방법은 적은 데이터로도 잘 작동합니다.

🕵️‍♂️ "왜?"를 알려주는 비밀 열쇠 (PaReGTA-RSS)

가장 흥미로운 점은 이유를 설명해 준다는 것입니다.
기존의 AI 는 "정답은 A 입니다"만 말하고 "왜 A 인지"는 말해주지 않았습니다 (블랙박스). 하지만 PaReGTA 는 RSS(표현 변화 점수)라는 도구를 통해 이유를 찾아냅니다.

비유: 요리가 실패했을 때, "소금을 빼니까 맛이 달라졌네? 아, 소금이 핵심이었구나!"라고 알아내는 과정입니다.
실제 적용: "이 환자가 만성 편두통으로 분류된 이유는 **보툴리눔 주사 **(Botox)를 맞았기 때문이고, 불면증이 영향을 미쳤기 때문이야"라고 구체적인 이유를 알려줍니다.

💡 결론

이 논문은 "환자의 기록을 단순한 데이터가 아니라, 시간의 흐름이 담긴 이야기로 바꾸자"고 제안합니다.
AI 가 환자의 병력을 이야기로 읽고, 최근의 상황과 중요한 사건을 잘 기억하게 만들면, 의사는 더 정확한 진단을 내리고 환자에게 더 나은 치료를 받을 수 있게 됩니다.

간단히 말해, 환자의 과거를 잊지 않고, 중요한 순간을 기억하는 똑똑한 AI 비서를 만든 셈입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

전자의무기록 (EHR) 의 한계: EHR 데이터는 진단, 처방, 검사 결과 등 장기간에 걸친 시계열 정보를 포함하고 있으나, 기존의 많은 예측 파이프라인은 이를 단순한 One-hot 인코딩이나 빈도 기반 (Count-based) 집계 벡터로 변환합니다. 이 과정에서 방문 (visit) 단위 기록의 순서와 시간적 맥락이 소실되어, 질병의 진행 과정이나 임상적 중요성을 반영하지 못합니다.
기존 방법론의 단점:
- 수동 특징 공학 (Feature Engineering): 시간 간격, 최근성 지표 등을 수동으로 설계해야 하며, 도메인 전문성이 필요하고 확장성이 낮습니다.
- 순차 모델 (Sequence Models, 예: RNN, Transformer): 시계열 정보를 잘 반영하지만, 데이터가 희소하거나 불규칙한 EHR 환경에서 학습 비용이 크고, 데이터 양이 부족할 경우 성능이 불안정해집니다. 또한, 복잡한 아키텍처로 인해 임상 현장 적용이 어렵습니다.
- 해석 가능성 부족: LLM 기반 인코딩은 고차원 임베딩을 생성하므로, 기존 SHAP/LIME 같은 기법을 적용하기 어렵고, 어떤 임상 요인이 예측에 기여했는지 설명하기가 복잡합니다.
데이터 표준화 문제: EHR 내 약물 기록은 제품명 (Brand/Product name) 수준으로 이질적이며, RxNorm 등의 표준화 코드로 매핑하는 과정이 비용이 많이 들고 불완전합니다.

2. 제안 방법론: PaReGTA (Methodology)

저자들은 PaReGTA (Patient Representation Generation with Temporal Aggregation) 라는 새로운 프레임워크를 제안했습니다. 이는 사전 훈련된 LLM 을 기반으로 하여, 시계열 정보를 보존하면서도 데이터가 부족한 환경에서도 강력한 성능을 내도록 설계되었습니다.

2.1. 전체 파이프라인

PaReGTA 는 크게 세 단계로 구성됩니다.

방문 단위 텍스트화 (Visit-level Textualization):
- 구조화된 EHR 데이터를 '약물', '공존질환 (Comorbidities)' 등 임상적으로 의미 있는 개념으로 분리합니다.
- 각 방문 (Visit) 단위의 기록을 템플릿화된 문장으로 변환합니다.
- 시간적 단서 (Temporal Cues) 주입: 방문 간 시간 차이 (Gap), 절대 날짜, 최근 방문까지의 시간 등을 텍스트에 명시적으로 포함시킵니다. (예: "Previous visit 62 days ago, meds: lasmiditan...")
- 약물 정보 처리: 약물 개념 매핑 (Concept Mapping) 없이 EHR 에 기록된 그대로의 제품명 (Product-level) 을 텍스트에 포함시켜 LLM 의 사전 지식 (Semantic Knowledge) 을 활용합니다.
도메인 적응 (Domain Adaptation via SimCSE):
- 기본 모델로 Alibaba 의 GTE-base-v1.5 (Sentence Embedding 모델) 를 사용합니다.
- 레이블이 없는 방문 단위 텍스트를 사용하여 Unsupervised SimCSE (Contrastive Fine-tuning) 를 수행합니다. 이는 동일한 문장에 드롭아웃 노이즈를 적용해 양 (Positive) 쌍을 만들고, 배치 내 다른 문장을 음 (Negative) 쌍으로 하여 임베딩 공간의 정렬과 분리성을 향상시킵니다.
- 이를 통해 특정 코호트 (예: 편두통 환자) 에 최적화된 임베딩을 생성합니다.
하이브리드 시간적 풀링 (Hybrid Temporal Pooling):
- 각 방문별 임베딩을 환자 단위의 고정 차원 벡터로 집계합니다.
- 시간 가중치 (Time-decay): 최근 방문일수록 가중치를 높입니다.
- 어텐션 가중치 (Attention-based): 전역적으로 예측에 중요한 방문을 식별하여 가중치를 부여합니다.
- 이 두 가중치를 결합하여 (Convex Combination) 최종 환자 표현 (Patient Representation) 을 생성합니다.

2.2. 해석 가능성: PaReGTA-RSS

Representation Shift Score (RSS): LLM 기반 인코더의 블랙박스 문제를 해결하기 위해 제안된 요인 중요도 측정법입니다.
원리: 특정 임상 요인 (예: 특정 약물) 을 방문 텍스트에서 제거 (Perturbation) 한 후, 다시 임베딩 및 풀링 파이프라인을 통과시켜 새로운 환자 표현을 생성합니다.
계산: 원래 표현과 변경된 표현의 차이 ( $\Delta r$ ) 를 하위 모델 (로지스틱 회귀 등) 의 결정 함수 (Logit) 에 대입하여, 해당 요인 제거로 인한 예측 점수 변화를 계산합니다.
장점: 개별 환자 수준과 코호트 수준 모두에서 요인의 기여도를 정량화할 수 있습니다.

3. 실험 및 결과 (Results)

데이터셋: All of Us (AoU) 연구 프로그램의 39,088 명 편두통 환자 코호트를 사용했습니다.
작업: 만성 편두통 (Chronic) vs. 간헐적 편두통 (Episodic) 분류.
성능 비교:
- PaReGTA vs. Baseline: One-hot 인코딩 및 Count BoC (Bag-of-Codes) 기반 모델에 비해 PaReGTA 는 모든 분류기 (LightGBM, XGBoost, LR 등) 에서 압도적인 성능 향상을 보였습니다.
  - 정확도 (Accuracy): 약 84% (Baseline) → 92.33% (PaReGTA-Gap).
  - AUC: 약 0.76 (Baseline) → 0.9524 (PaReGTA-Gap).
- 심층 순차 모델 (Deep Sequential Models): RETAIN, T-LSTM 등은 데이터의 희소성과 불규칙성으로 인해 학습이 불안정하거나 수렴하지 못했습니다.
시간적 인코딩 분석:
- 방문 간 시간 간격 (Gap) 을 텍스트에 포함하는 방식이 절대 날짜나 최근 방문 기준 (Last) 보다 가장 우수한 성능을 보였습니다.
- 시간적 단서가 없는 경우 (Without) 성능이 크게 저하되어, 시간 정보가 예측에 필수적임을 입증했습니다.
약물 정보 처리:
- 약물 개념 매핑 없이 원본 제품명을 직접 인코딩해도 성능이 우수하며, 약물이 누락된 경우에도 공존질환 정보만으로 강력한 성능을 유지했습니다.
임베딩 품질: SimCSE 파인튜닝과 방문 단위 인코딩을 적용한 경우, 임베딩 공간의 균일성 (Uniformity) 과 등방성 (Isotropy) 이 크게 개선되었습니다.
요인 중요도 (RSS) 분석:
- 약물: 보툴리눔 독소 (OnabotulinumtoxinA), CGRP 표적 치료제, 트립탄 (Triptans) 등이 만성 편두통 예측에 가장 중요한 요인으로 나타났습니다. 이는 임상적 가이드라인과 일치합니다.
- 공존질환: 고혈압, 불안, 당뇨병, 섬유근통 등이 중요한 역할을 했습니다.
- 성별 차이: 남성에서는 불안과 PTSD 가, 여성에서는 섬유근통과 턱관절 장애가 더 큰 중요도를 보였습니다.
- 시간적 중요도: 만성 편두통 환자의 경우 최근 180~365 일의 기록이 예측에 큰 영향을 미치는 반면, 간헐적 환자는 상대적으로 최근 기록의 영향이 적었습니다.

4. 주요 기여 (Key Contributions)

PaReGTA 프레임워크: 시계열 정보를 보존하는 LLM 기반 EHR 인코딩 파이프라인을 제안했습니다. 사전 훈련된 Sentence Embedding 모델을 경량 Contrastive 학습으로 적응시키고, 하이브리드 풀링을 통해 환자 표현을 생성합니다.
실용적인 약물 처리: 비용이 많이 드는 약물 개념 매핑 없이 EHR 의 원본 제품명을 직접 인코딩하여, 이질적인 약물 데이터에서도 강건한 성능을 입증했습니다.
PaReGTA-RSS: LLM 기반 인코더에 특화된 요인 중요도 측정법을 개발하여, 임상적 해석 가능성을 제공했습니다.
실제 데이터 검증: 대규모 다기관 EHR 데이터 (All of Us) 에서 기존 희소 인코딩 및 심층 순차 모델 대비 우수한 성능을 입증했습니다.

5. 의의 및 결론 (Significance)

임상 적용 가능성: 복잡한 심층 신경망 (Deep Learning) 을 처음부터 학습시킬 필요 없이, 사전 훈련된 LLM 을 경량 파인튜닝하여 데이터가 제한적인 임상 환경에서도 고품질 예측 모델을 구축할 수 있음을 보여줍니다.
해석 가능성: 블랙박스 모델의 한계를 극복하고, "어떤 약물이나 질환이 환자의 만성 편두통 진단에 기여했는지"를 정량적으로 설명할 수 있는 도구를 제공합니다.
유연성: PaReGTA 는 특정 LLM 에 종속되지 않으며, 향후 더 강력한 Sentence Embedding 모델이 등장하면 쉽게 교체하여 성능을 향상시킬 수 있는 모듈식 구조를 가집니다.
시간적 맥락의 중요성: EHR 모델링에서 단순한 데이터 집계보다는 방문 간의 시간적 관계 (Gap) 를 텍스트화하여 명시적으로 표현하는 것이 예측 성능 향상에 결정적임을 입증했습니다.

이 연구는 EHR 데이터의 시계열 특성을 효과적으로 활용하면서도 임상 현장의 실용성 (해석 가능성, 데이터 표준화 부담 감소) 을 고려한 새로운 AI 기반 의료 예측 패러다임을 제시한다는 점에서 의미가 큽니다.