CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

이 논문은 숫자, 범위, 가우시안 분포와 그 단위 및 속성 이름을 통합하여 복잡한 수치 데이터의 의미와 거리를 보존하는 하이브리드 트랜스포머 인코더 'CONE'을 제안하고, 다양한 도메인에서 기존 최첨단 모델보다 뛰어난 수치 추론 능력을 입증했습니다.

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌟 핵심 비유: "숫자는 글자가 아니라, '의미 있는 정보'다"

1. 기존 AI 의 문제점: "눈이 먼 번역가"

기존 AI 는 숫자를 볼 때 마치 눈이 먼 번역가처럼 행동합니다.

  • 상황: "5"라는 숫자가 나옵니다.
  • 기존 AI 의 생각: "아, '5'라는 글자구나. 'apple(사과)'이나 'cat(고양이)'처럼 그냥 단어 하나겠지."
  • 실제 상황: "5"는 **5 킬로그램 (무게)**일 수도 있고, **5 미터 (길이)**일 수도 있으며, **5 년 (시간)**일 수도 있습니다.
  • 결과: 기존 AI 는 "5kg"과 "5m"를 똑같은 것으로 여겨 혼란을 겪습니다. 마치 "100 원"과 "100 달러"를 똑같은 돈으로 착각하는 것과 같습니다.

2. CONE 의 해결책: "세부 사항을 모두 챙기는 전문가"

이 논문에서 만든 CONE은 숫자를 볼 때 단순히 "5"라고만 보지 않습니다. 대신 3 가지 요소를 묶어서 봅니다.

  • 숫자 (Value): 5
  • 단위 (Unit): kg, m, 년
  • 속성 (Attribute): 무게, 길이, 나이

🍎 비유: "과일 바구니"

  • 기존 AI: 바구니에 "사과"와 "오렌지"를 섞어 넣습니다. 둘 다 둥글고 빨간색/주황색이라 비슷해 보입니다.
  • CONE: "사과 (과일)"와 "오렌지 (과일)"는 구분하되, **"사과 (무게 1kg)"**와 **"사과 (무게 5kg)"**도 구분합니다. 심지어 **"사과 (무게 1kg)"**와 **"돌 (무게 1kg)"**은 완전히 다른 바구니에 넣습니다.

CONE 은 숫자 뒤에 숨겨진 **'무엇의 5 인가?'**를 정확히 파악해서, 숫자끼리 거리를 두거나 가깝게 배치합니다.


🚀 CONE 가 어떻게 작동할까요? (3 단계 과정)

1. 숫자를 조각내지 않고 통째로 봅니다 (Tokenization)

기존 AI 는 "28,600"이라는 숫자를 "28"과 "600"으로 잘라내서 의미를 망칩니다. (예: "28"은 28 일, "600"은 600 원으로 오해할 수 있음)

  • CONE: "28,600"이라는 숫자를 한 덩어리로 인식합니다. 마치 전화번호를 한 번에 외우는 것처럼요.

2. 숫자의 '크기'와 '거리'를 이해합니다 (Magnitude)

숫자 1 과 100 은 거리가 멀고, 10 과 11 은 가깝습니다.

  • 기존 AI: 1 과 100 의 거리가 1 과 11 의 거리와 비슷할 수 있습니다.
  • CONE: 수학적인 거리를 정확히 계산합니다. 100 은 1 보다 훨씬 멀리 있고, 11 은 10 과 아주 가깝다는 것을 벡터 (숫자 좌표) 상에서 정확히 표현합니다.

3. 복잡한 숫자도 처리합니다 (Ranges & Gaussians)

실제 데이터에는 "10~20 세"나 "1302±0.25" 같은 복잡한 숫자도 있습니다.

  • CONE: "10~20"이라는 범위를 단순히 글자로 보지 않고, **중심값 (15)**과 **범위 길이 (10)**로 나누어 의미를 파악합니다. "±0.25"처럼 오차 범위가 있는 숫자도 정확히 이해합니다.

🏆 왜 이것이 중요한가요? (실제 효과)

이 모델을 실험해 보니 놀라운 결과가 나왔습니다.

  1. 수학 문제 해결 능력 향상:
    • "A 는 5 살이고 B 는 10 살이다. 둘의 나이를 더하면?" 같은 문제를 기존 AI 는 잘 못 풀었습니다. 하지만 CONE 는 **87.28%**의 정확도로 정답을 맞췄습니다. (기존 최고 수준보다 9% 이상 향상)
  2. 데이터 검색 능력 향상:
    • "혈액량 (Blood loss)"과 "추적 기간 (Follow-up)"은 숫자 분포가 비슷해서 기존 AI 는 둘을 혼동했습니다. 하지만 CONE 는 **단위 (mL vs 개월)**를 보고 "아, 이건 완전히 다른 것이구나!"라고 구분해 냈습니다.
    • 관련 데이터를 찾을 때, 기존 모델보다 25% 더 정확하게 찾아냈습니다.

💡 요약: CONE 의 핵심 메시지

"숫자는 글자가 아니다. 숫자는 '무엇의 얼마'인지에 따라 의미가 완전히 달라진다."

기존 AI 는 숫자를 글자처럼 대우했지만, CONE은 숫자를 실제 세계의 측정값처럼 대우합니다.

  • 5kg5m는 다릅니다.
  • 10~20 세10~20 달러는 다릅니다.

이 연구는 AI 가 이제부터 숫자의 세계에서도 인간처럼 정교하게 생각할 수 있게 했다는 점에서 매우 중요합니다. 앞으로 의료 기록 분석, 금융 데이터 처리, 과학 연구 등 숫자가 중요한 모든 분야에서 AI 의 실수가 크게 줄어들 것으로 기대됩니다.