Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets

이 논문은 결측치를 전통적인 대체 기법 없이도 특징별 임베딩과 수정된 마스킹 셀프 어텐션 메커니즘을 통해 직접 학습할 수 있도록 설계된 새로운 트랜스포머 기반 모델 'NAIM'을 제안하고, 다양한 데이터셋에서 기존 최첨단 모델들보다 우수한 성능을 입증했습니다.

Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ "NAIM": 결측치가 있는 데이터도 완벽하게 해결하는 새로운 AI 비서

이 논문은 **"NAIM (Not Another Imputation Method)"**이라는 새로운 인공지능 모델을 소개합니다. 이름부터가 "또 다른 결측치 대체법 (Imputation) 은 필요 없다"는 자신감 넘치는 메시지를 담고 있죠.

이 복잡한 기술 내용을 일반인이 쉽게 이해할 수 있도록 비유와 은유를 섞어 설명해 드리겠습니다.


1. 문제 상황: "누락된 레시피"로 요리하기 🍳

상상해 보세요. 당신이 훌륭한 요리사 (AI 모델) 라고 칩시다. 그런데 손님이 주문한 레시피를 보니, 어떤 재료의 양이 적혀 있지 않거나, 아예 재료가 빠진 경우가 있습니다.

  • 기존 방식 (Imputation): 대부분의 요리사들은 "아, 이 양념이 없네? 그럼 대충 소금이나 설탕을 넣어서 채워보자"라고 생각합니다. 이를 **결측치 대체 (Imputation)**라고 합니다.
    • 문제점: 하지만 대충 넣은 재료는 원래 맛을 해칠 수 있습니다. "이게 원래 소금이었나, 설탕이었나?"를 추측해서 넣는 과정 자체가 오류를 만들 수 있죠.

2. NAIM 의 등장: "빠진 재료는 무시하고, 남은 재료로 요리한다" 🥗

이제 NAIM이라는 새로운 요리사가 등장합니다. 그는 이렇게 말합니다.

"아니, 빠진 재료를 대충 채울 필요 없어요! 빠진 부분은 아예 무시하고, 있는 재료들만 가지고 최고의 요리를 만들어내면 됩니다."

NAIM 은 빠진 데이터를 '추측'해서 채우는 대신, 그 부분이 없다는 사실 자체를 인정하고 학습합니다.

3. NAIM 의 두 가지 비밀 무기 🛠️

NAIM 이 어떻게 그런 일을 해낼까요? 두 가지 핵심 기술이 있습니다.

① "특수한 명찰" (Feature-specific Embeddings)

  • 비유: 모든 요리사에게 똑같은 명찰을 주는 게 아니라, 각 재료 (데이터) 에 맞는 고유한 명찰을 붙여줍니다.
  • 설명: 숫자 데이터 (예: 나이, 가격) 와 카테고리 데이터 (예: 성별, 직업) 는 성격이 다릅니다. NAIM 은 이 두 가지를 구분해서 각각에 맞는 '명찰 (임베딩)'을 붙입니다.
  • 핵심: 만약 어떤 재료가 빠졌다면, 그 명찰에는 **"이건 빠진 거야 (Missing)"**라고 적힌 특수한 라벨을 붙여줍니다. AI 는 이 라벨을 보고 "아, 이 부분은 계산에서 제외해야겠다"라고 정확히 알 수 있게 됩니다.

② "선택적 집중력" (Modified Masked Self-Attention)

  • 비유: 요리사가 재료를 섞을 때, 빠진 재료가 섞여 들어가지 못하도록 '투명한 장벽'을 치는 것입니다.
  • 설명: 기존 AI 는 빠진 데이터를 무시하지 못해, 그 빈 공간 때문에 다른 재료들의 맛 (데이터 간의 관계) 이 망가질 때가 있었습니다. NAIM 은 Attention(주의) 메커니즘을 수정해서, 빠진 데이터가 다른 데이터와 섞이지 못하도록 완전히 차단합니다.
  • 효과: 빠진 데이터가 요리에 끼어들어 맛을 망치는 것을 원천 차단하는 것입니다.

4. 더 강력한 훈련법: "실전 연습" (Regularization) 🏋️‍♂️

NAIM 이 정말 놀라운 점은 훈련 과정에도 비밀이 있다는 것입니다.

  • 기존 방식: AI 는 훈련할 때 데이터가 완벽하게 갖춰져 있다고 가정하고 학습합니다. 그런데 실제 시험 (테스트) 에서는 데이터가 뚝뚝 끊겨 나오면 당황해서 망칩니다.
  • NAIM 의 방식: 훈련할 때 매번 임의로 데이터를 지워버리는 연습을 시킵니다.
    • 비유: 요리사에게 "오늘은 소금이 빠졌으니 소금 없이 요리해봐", "내일은 양파가 없으니 양파 없이 해봐"라고 실전 상황을 미리 체험하게 하는 것입니다.
    • 효과: 이렇게 훈련하면, AI 는 데이터가 아무리 부족해도 당황하지 않고 남은 정보만으로도 최고의 결과를 내는 능력을 키웁니다.

5. 실험 결과: "누가 더 잘하나?" 🏆

연구진은 NAIM 을 기존에 있던 11 가지의 유명한 AI 모델 (랜덤 포레스트, XGBoost, TabNet 등) 과 비교했습니다.

  • 조건: 데이터에 결측치가 0% 에서 75% 까지 다양한 비율로 섞인 상황.
  • 결과: **NAIM 이 거의 모든 상황에서 가장 좋은 점수 (AUC)**를 받았습니다.
    • 특히 데이터가 많이 빠져도 성능이 떨어지지 않는 **튼튼함 (Robustness)**에서 압도적이었습니다.
    • 기존 모델들은 결측치를 채우는 방법을 바꿔가며 실험해야 했지만, NAIM 은 그런 번거로운 과정 없이도 가장 잘했습니다.

6. 결론: 왜 이것이 중요한가요? 🌟

이 논문이 주는 메시지는 간단합니다.

"결측치를 대충 채우려고 애쓸 필요 없습니다. 있는 그대로의 데이터를 믿고, 빠진 부분을 자연스럽게 처리할 수 있는 AI 를 쓰세요."

NAIM 은 결측치가 있는 현실 세계의 데이터를 다룰 때, 더 이상 복잡한 전처리 (Imputation) 가 필요 없게 만들어줍니다. 이는 의료 기록, 금융 데이터처럼 중요한 분야에서 오류 없이 더 정확한 예측을 가능하게 해주는 획기적인 발전입니다.

한 줄 요약:
NAIM 은 "빠진 데이터는 채우지 말고, 있는 데이터만 믿고 집중하라"는 철학으로, 결측치가 있는 데이터에서도 최고의 성능을 내는 초능력의 AI 비서입니다.