OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions

이 논문은 잠재 교란변수로 인한 상관관계 학습의 한계를 극복하기 위해 신경 제어 함수를 통해 도구변수 추정을 트랜스포머의 은닉 상태에 직접 통합한 'OrthoFormer'를 제안하여, 분포 변화 하에서도 견고한 인과적 시퀀스 모델링을 가능하게 한다고 요약할 수 있습니다.

Charles Luo

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제: AI 가 '우연'을 '원인'으로 착각하다

우리가 흔히 쓰는 AI(예: 챗봇, 추천 시스템) 는 방대한 데이터를 보고 패턴을 찾아냅니다. 하지만 이 AI 들은 진짜 원인을 찾는 게 아니라, 단순한 우연의 일치를 배우는 데서 그칩니다.

비유: "우산과 비"의 오해

  • 상황: 비가 오면 사람들이 우산을 씁니다.
  • AI 의 잘못된 학습: "사람이 우산을 쓰면 곧 비가 온다!"라고 생각합니다.
  • 진짜 원인: 비가 오기 때문에 우산을 씁니다.
  • 문제: 만약 AI 가 "우산을 쓰면 비가 그친다"고 착각하고 우산을 치우라고 명령하면, 실제로는 비가 더 많이 오게 됩니다.

논문에서는 이 문제를 "잠재된 혼란 요인 (Latent Confounders)" 때문이라고 말합니다.

  • 정적인 배경 (Static Background): 사람의 성격, 로봇의 기계적 특성, 글의 고유한 스타일 등 변하지 않는 요소들이 있습니다.
  • 동적인 흐름 (Dynamic Flow): 시간에 따라 변하는 실제 상황의 변화입니다.

기존 AI 는 이 '변하지 않는 배경' 때문에 생긴 가짜 상관관계를 진짜 법칙인 줄 알고 배워버립니다. 그래서 평소에는 잘 작동하다가, 새로운 상황 (예: 성격이 다른 사람, 다른 환경) 에 가면 완전히 망가집니다.


🛠️ 2. 해결책: OrthoFormer (오르토포머)

저자는 이 문제를 해결하기 위해 경제학에서 쓰이는 '도구 변수 (Instrumental Variable)' 개념을 AI 의 뇌 (Hidden State) 안에 직접 심었습니다. 이를 OrthoFormer라고 부릅니다.

핵심 아이디어: "과거의 기록을 거울로 쓰다"

  • AI 가 미래를 예측할 때, 현재의 데이터만 보면 '가짜 원인 (배경)'에 속아넘어갑니다.
  • 대신, **과거의 데이터 (특히 조금 더 오래된 데이터)**를 '거울'처럼 사용하여, 진짜 원인과 가짜 원인을 분리해냅니다.

이를 위해 OrthoFormer 는 4 가지 기둥을 세웠습니다:

  1. 시간의 화살 (Structural Directionality):
    • 미래를 알 수 없듯이, AI 가 미래를 보고 과거를 추측하지 못하게 막습니다. 오직 과거가 미래를 결정하도록 설계했습니다.
  2. 수직 분리 (Representation Orthogonality):
    • '변하지 않는 배경 (성격 등)'과 '변하는 흐름 (상황)'을 물리적으로 분리합니다. 마치 소금과 물을 섞지 않고 따로 담는 것처럼요.
  3. 인과적 희소성 (Causal Sparsity):
    • 모든 과거 데이터를 다 보는 게 아니라, 진짜 영향을 미친 과거 데이터만 집중해서 봅니다. (불필요한 잡음 제거)
  4. 단계적 분리 (End-to-End Consistency):
    • 가장 중요한 부분입니다. AI 가 두 단계를 거치는데, 두 단계를 한 번에 다 최적화하면 안 됩니다.
    • 비유: 요리사가 "맛을 내기 위해" 소금을 넣는 게 아니라, "소금의 양을 재는 도구"로 소금을 쓴 뒤, 그 결과를 바탕으로 요리를 해야 합니다. 두 과정을 섞으면 AI 는 "소금 양을 재는 도구"를 요리 맛에 맞춰 조작해버립니다. OrthoFormer 는 이 두 과정을 강제로 끊어서 (Gradient Detachment) 서로 간섭하지 못하게 합니다.

🧪 3. 실험 결과: 이론이 현실이 되다

저자는 이 방법이 실제로 효과가 있는지 증명했습니다.

  • 편향 감소: 기존 AI(OLS) 가 가진 큰 오차가 OrthoFormer 에서는 기하급수적으로 줄어듭니다.
  • 트라이들 (Trilemma) 의 발견:
    • **편향 (Bias), 분산 (Variance), 외생성 (Exogeneity)**이라는 세 가지 요소는 서로 상충합니다.
    • 과거를 너무 멀리 보면 (과거 데이터 사용) 가짜 원인은 사라지지만, 데이터가 너무 희미해져서 예측이 불안정해집니다.
    • 너무 가까이 보면 데이터는 선명하지만 가짜 원인이 섞여 있습니다.
    • OrthoFormer 는 이 최적의 균형점을 찾아냅니다.
  • 금지된 회귀 (Neural Forbidden Regression):
    • 만약 두 단계를 끊지 않고 한 번에 학습하게 하면, AI 는 예측 오차 (Loss) 는 줄이지만, 진짜 인과관계는 망가뜨립니다.
    • 마치 "시험 점수를 높이기 위해 문제를 외우는 것"은 좋지만, "진짜 지식을 배우는 것"은 아니라는 것과 같습니다. AI 는 점수만 잘 나오면 된다고 속아넘어갈 수 있다는 경고입니다.

💡 4. 결론: 왜 이것이 중요한가?

OrthoFormer 는 AI 가 단순히 **"데이터를 맞추는 것"**을 넘어, **"세상이 어떻게 돌아가는지 (인과관계)"**를 이해하도록 돕습니다.

  • 강건함 (Robustness): 새로운 상황 (예: 다른 나라 사람, 다른 기후) 에서도 잘 작동합니다.
  • 신뢰성: AI 가 왜 그런 결정을 내렸는지 설명할 수 있고, 잘못된 추론을 하지 않습니다.
  • 미래: 이 기술은 의료, 금융, 자율주행처럼 실수하면 큰일 나는 분야에서 AI 를 안전하게 만드는 핵심 열쇠가 될 것입니다.

한 줄 요약:

"기존 AI 는 과거의 패턴을 무작정 믿어 '가짜 원인'에 속아넘어갔다면, OrthoFormer는 과거의 데이터를 '진짜 도구'로 써서 진짜 원인을 찾아내어, 어떤 상황에서도 흔들리지 않는 똑똑한 AI 를 만듭니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →