Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ "NAIM": 결측치가 있는 데이터도 완벽하게 해결하는 새로운 AI 비서

이 논문은 **"NAIM (Not Another Imputation Method)"**이라는 새로운 인공지능 모델을 소개합니다. 이름부터가 "또 다른 결측치 대체법 (Imputation) 은 필요 없다"는 자신감 넘치는 메시지를 담고 있죠.

이 복잡한 기술 내용을 일반인이 쉽게 이해할 수 있도록 비유와 은유를 섞어 설명해 드리겠습니다.

1. 문제 상황: "누락된 레시피"로 요리하기 🍳

상상해 보세요. 당신이 훌륭한 요리사 (AI 모델) 라고 칩시다. 그런데 손님이 주문한 레시피를 보니, 어떤 재료의 양이 적혀 있지 않거나, 아예 재료가 빠진 경우가 있습니다.

기존 방식 (Imputation): 대부분의 요리사들은 "아, 이 양념이 없네? 그럼 대충 소금이나 설탕을 넣어서 채워보자"라고 생각합니다. 이를 **결측치 대체 (Imputation)**라고 합니다.
- 문제점: 하지만 대충 넣은 재료는 원래 맛을 해칠 수 있습니다. "이게 원래 소금이었나, 설탕이었나?"를 추측해서 넣는 과정 자체가 오류를 만들 수 있죠.

2. NAIM 의 등장: "빠진 재료는 무시하고, 남은 재료로 요리한다" 🥗

이제 NAIM이라는 새로운 요리사가 등장합니다. 그는 이렇게 말합니다.

"아니, 빠진 재료를 대충 채울 필요 없어요! 빠진 부분은 아예 무시하고, 있는 재료들만 가지고 최고의 요리를 만들어내면 됩니다."

NAIM 은 빠진 데이터를 '추측'해서 채우는 대신, 그 부분이 없다는 사실 자체를 인정하고 학습합니다.

3. NAIM 의 두 가지 비밀 무기 🛠️

NAIM 이 어떻게 그런 일을 해낼까요? 두 가지 핵심 기술이 있습니다.

① "특수한 명찰" (Feature-specific Embeddings)

비유: 모든 요리사에게 똑같은 명찰을 주는 게 아니라, 각 재료 (데이터) 에 맞는 고유한 명찰을 붙여줍니다.
설명: 숫자 데이터 (예: 나이, 가격) 와 카테고리 데이터 (예: 성별, 직업) 는 성격이 다릅니다. NAIM 은 이 두 가지를 구분해서 각각에 맞는 '명찰 (임베딩)'을 붙입니다.
핵심: 만약 어떤 재료가 빠졌다면, 그 명찰에는 **"이건 빠진 거야 (Missing)"**라고 적힌 특수한 라벨을 붙여줍니다. AI 는 이 라벨을 보고 "아, 이 부분은 계산에서 제외해야겠다"라고 정확히 알 수 있게 됩니다.

② "선택적 집중력" (Modified Masked Self-Attention)

비유: 요리사가 재료를 섞을 때, 빠진 재료가 섞여 들어가지 못하도록 '투명한 장벽'을 치는 것입니다.
설명: 기존 AI 는 빠진 데이터를 무시하지 못해, 그 빈 공간 때문에 다른 재료들의 맛 (데이터 간의 관계) 이 망가질 때가 있었습니다. NAIM 은 Attention(주의) 메커니즘을 수정해서, 빠진 데이터가 다른 데이터와 섞이지 못하도록 완전히 차단합니다.
효과: 빠진 데이터가 요리에 끼어들어 맛을 망치는 것을 원천 차단하는 것입니다.

4. 더 강력한 훈련법: "실전 연습" (Regularization) 🏋️‍♂️

NAIM 이 정말 놀라운 점은 훈련 과정에도 비밀이 있다는 것입니다.

기존 방식: AI 는 훈련할 때 데이터가 완벽하게 갖춰져 있다고 가정하고 학습합니다. 그런데 실제 시험 (테스트) 에서는 데이터가 뚝뚝 끊겨 나오면 당황해서 망칩니다.
NAIM 의 방식: 훈련할 때 매번 임의로 데이터를 지워버리는 연습을 시킵니다.
- 비유: 요리사에게 "오늘은 소금이 빠졌으니 소금 없이 요리해봐", "내일은 양파가 없으니 양파 없이 해봐"라고 실전 상황을 미리 체험하게 하는 것입니다.
- 효과: 이렇게 훈련하면, AI 는 데이터가 아무리 부족해도 당황하지 않고 남은 정보만으로도 최고의 결과를 내는 능력을 키웁니다.

5. 실험 결과: "누가 더 잘하나?" 🏆

연구진은 NAIM 을 기존에 있던 11 가지의 유명한 AI 모델 (랜덤 포레스트, XGBoost, TabNet 등) 과 비교했습니다.

조건: 데이터에 결측치가 0% 에서 75% 까지 다양한 비율로 섞인 상황.
결과: **NAIM 이 거의 모든 상황에서 가장 좋은 점수 (AUC)**를 받았습니다.
- 특히 데이터가 많이 빠져도 성능이 떨어지지 않는 **튼튼함 (Robustness)**에서 압도적이었습니다.
- 기존 모델들은 결측치를 채우는 방법을 바꿔가며 실험해야 했지만, NAIM 은 그런 번거로운 과정 없이도 가장 잘했습니다.

6. 결론: 왜 이것이 중요한가요? 🌟

이 논문이 주는 메시지는 간단합니다.

"결측치를 대충 채우려고 애쓸 필요 없습니다. 있는 그대로의 데이터를 믿고, 빠진 부분을 자연스럽게 처리할 수 있는 AI 를 쓰세요."

NAIM 은 결측치가 있는 현실 세계의 데이터를 다룰 때, 더 이상 복잡한 전처리 (Imputation) 가 필요 없게 만들어줍니다. 이는 의료 기록, 금융 데이터처럼 중요한 분야에서 오류 없이 더 정확한 예측을 가능하게 해주는 획기적인 발전입니다.

한 줄 요약:
NAIM 은 "빠진 데이터는 채우지 말고, 있는 데이터만 믿고 집중하라"는 철학으로, 결측치가 있는 데이터에서도 최고의 성능을 내는 초능력의 AI 비서입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

표형 데이터 (Tabular Data) 는 행과 열로 구성된 구조를 가지며, 기계 학습 (ML) 및 딥러닝 (DL) 모델 학습 시 결측치 (Missing Values) 처리가 주요한 과제입니다.

기존 접근법의 한계: 대부분의 최신 모델들은 완전한 데이터셋을 요구하므로, 결측치를 처리하기 위해 임의의 값으로 채우는 기법 (Imputation) 을 전처리 단계에서 사용합니다.
- 단점: 평균 대체, KNN, MICE 등의 임putation 기법은 데이터의 분포를 왜곡하거나 편향된 예측을 초래할 수 있으며, 최적의 임putation 방법을 사전에 찾는 것은 매우 어렵습니다.
- 내재적 처리의 부재: 기존 Transformer 기반 모델들은 텍스트나 이미지 처리에 특화되어 있어, 표형 데이터의 결측치를 효과적으로 무시하거나 학습하는 메커니즘이 부족했습니다.
목표: 결측치를 채우지 않고 (Imputation without Imputation), 사용 가능한 데이터만으로부터 직접 학습하여 예측 성능을 극대화하는 새로운 모델 개발.

2. 제안 방법론: NAIM (Methodology)

저자들은 결측치를 채우지 않고도 학습이 가능한 새로운 Transformer 기반 아키텍처인 NAIM을 제안했습니다. 핵심 기술은 다음과 같습니다.

가. 특징별 임베딩 (Feature-specific Embeddings)

범주형 및 수치형 동시 처리: 범주형과 수치형 특징 모두에 대해 별도의 임베딩 테이블을 사용합니다.
패딩 인덱스 활용: 결측값이 있는 경우, 학습 가능한 벡터가 아닌 학습 불가능한 0 벡터 (Padding Index) 를 할당합니다. 이를 통해 결측값이 임베딩 단계에서 모델에 영향을 미치지 않도록 설계했습니다.
- 수치형 특징의 경우, 값이 존재할 때만 해당 값과 임베딩 벡터를 곱하여 스케일링하고, 결측 시에는 0 벡터를 사용합니다.

나. 수정된 마스킹 셀프 어텐션 (Modified Masked Self-Attention)

기존 어텐션의 문제: 기존 Transformer 의 마스크 메커니즘은 주로 시퀀스 내의 '미래 정보'나 '패딩 토큰'을 무시하는 데 사용되지만, 표형 데이터에서는 결측 열 (Column) 의 기여도를 완전히 제거하지 못할 수 있습니다.
NAIM 의 혁신: 결측값의 영향을 완전히 차단하기 위해 어텐션 메커니즘을 수정했습니다.
- 이중 마스크 적용: 표준 어텐션 공식 $Attention(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_h}} + M)V$ 에 더해, 마스킹 행렬 $M$ 을 두 번 적용합니다.
- 수식: $Attention(Q, K, V) = \text{ReLU}(\text{softmax}(\frac{QK^T}{\sqrt{d_h}} + M) + M^T)V$
- 효과: 결측값에 해당하는 행과 열의 어텐션 점수를 0 으로 만들어, 결측 데이터가 다른 특징들의 계산에 전혀 관여하지 않도록 보장합니다.

다. 새로운 정규화 기법 (Novel Regularization)

목적: 모델이 훈련 데이터에 결측치가 없더라도, 테스트 시 결측치가 발생했을 때 견고하게 대응할 수 있도록 합니다.
방법 (Cutout 기반): 에포크 (Epoch) 마다 각 샘플의 특징 벡터에서 무작위로 일부 유효한 값을 결측치로 변환 (Masking) 합니다.
- 확률 50% 로 샘플을 선택하고, 해당 샘플 내의 1 개 이상을 제외한 무작위 개수의 값을 마스킹합니다.
- 이는 모델이 불완전한 패턴에서도 일반화 능력을 갖추도록 강제하며, 과적합을 방지합니다.

3. 주요 기여 (Key Contributions)

임putation 불필요한 Transformer 모델: 결측치를 채우지 않고도 범주형 및 수치형 데이터를 효과적으로 처리할 수 있는 최초의 Transformer 기반 모델 제안.
완전한 결측치 차단 메커니즘: 특징별 임베딩과 수정된 어텐션 메커니즘을 통해 결측 데이터의 영향을 학습 과정에서 완전히 배제.
강건한 정규화 전략: 훈련 데이터에 결측치가 없어도 테스트 데이터의 결측 상황에 적응할 수 있도록 하는 무작위 마스킹 정규화 기법 도입.
광범위한 실험적 검증: 5 개의 공개 데이터셋 (Adult, BankMarketing, OnlineShoppers, SeismicBumps, Spambase) 에서 6 가지 ML 모델과 5 가지 DL 모델 (총 35 가지 조합) 과 비교하여 성능을 입증.

4. 실험 결과 (Results)

데이터셋 및 설정: 5 개의 UCI 데이터셋을 사용하며, 훈련 및 테스트 세트에 0%~75% 까지 다양한 비율의 MCAR (Missing Completely At Random) 결측치를 인위적으로 생성하여 평가했습니다.
성능 비교:
- NAIM 은 36 가지 결측 시나리오 중 23 가지에서 최상의 성능 (AUC) 을 기록했습니다.
- 전체 실험에서 NAIM 은 경쟁 모델 대비 58.7% 의 경우에서 통계적으로 유의미하게 더 좋은 성능을 보였으며, 1.6% 의 경우에서만 열등했습니다.
- 특히, 훈련 데이터에 결측치가 전혀 없는 상황 (0%) 에서도 테스트 데이터에 결측치가 있을 때, 기존 임putation 기법을 사용하는 모델들보다 훨씬 뛰어난 성능을 유지했습니다. 이는 제안된 정규화 기법의 유효성을 입증합니다.
강건성 (Robustness): 결측치 비율이 증가함에 따른 성능 저하 (Performance Drop) 가 다른 모델들에 비해 가장 적었습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: 결측치 처리를 위한 별도의 전처리 (Imputation) 단계가 불필요하게 되어 데이터 파이프라인이 단순화되고, 임putation 으로 인한 정보 손실이나 편향의 위험을 제거합니다.
실용성: 의료, 금융 등 결측치가 빈번하고 임putation 방법 선택이 어려운 실제 환경에서 강력한 예측 성능을 제공합니다.
미래 방향: NAIM 은 표형 데이터 분석에서 Transformer 의 잠재력을 보여주었으며, 향후 다중 모달 데이터 처리, 효율적인 어텐션 메커니즘, 해석 가능성 향상, 자기지도 학습 (Self-supervised learning) 적용 등으로 확장 가능성이 큽니다.

결론적으로, NAIM 은 결측치가 있는 표형 데이터를 처리할 때 "채우기 (Imputation)" 대신 "무시하고 학습 (Ignore and Learn)"하는 접근법을 성공적으로 구현하여, 기존 방식보다 우월한 예측 성능과 견고함을 입증한 획기적인 연구입니다.

Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets