Domain Expansion: A Latent Space Construction Framework for Multi-Task Learning

이 논문은 다중 작업 학습에서 발생하는 잠재 표현의 붕괴 문제를 해결하기 위해 각 목표가 상호 직교하는 부분 공간에 할당되도록 잠재 공간을 재구성하는 '도메인 확장 (Domain Expansion)' 프레임워크를 제안하고, 이를 통해 충돌을 방지하면서도 해석 가능하고 구성적인 잠재 표현을 확보함을 보여줍니다.

Chi-Yao Huang, Khoa Vo, Aayush Atul Verma, Duo Lu, Yezhou Yang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "한 번에 두 마리 토끼를 잡으려다 모두 놓치는 상황"

상상해 보세요. 한 학생이 수학음악을 동시에 배우고 있다고 칩시다.

  • 수학 선생님은 "논리적으로 생각하라"고 가르칩니다.
  • 음악 선생님은 "감정적으로 느껴라"고 가르칩니다.

이 학생의 뇌 (AI 의 '잠재 공간') 는 두 가지 지시를 동시에 받아야 합니다. 그런데 두 지시가 서로 충돌하면 어떨까요? 학생은 "그래, 논리적이면서도 감정적인... 어? 그게 뭐지?"라며 중간 지대만 찾게 됩니다. 결과적으로 수학도 못 풀고, 음악도 못 부르는 **'반쪽짜리 실력'**만 갖게 되는 것입니다.

논문에서는 이를 **'잠재 표현 붕괴 (Latent Representation Collapse)'**라고 부릅니다. 여러 일을 동시에 하려다 오히려 모든 것이 엉켜버려서 제대로 된 능력을 발휘하지 못하는 현상입니다. 기존 AI 들은 이 문제를 해결하기 위해 "수학 점수를 조금 더 높게 쳐주자"거나 "음악 점수를 낮게 쳐주자"고 계산하는 식으로 노력해 왔지만, 근본적인 해결책은 아니었습니다.

2. 해결책: "도메인 확장" = "완벽하게 분리된 방들"

이 논문이 제안하는 **'도메인 확장'**은 아주 창의적인 아이디어입니다.

비유: 거대한 아파트 (잠재 공간)
기존 방식은 여러 사람이 좁은 거실 (공유된 뇌 영역) 에 모여서 각자 다른 일을 하려다 부딪히는 상황입니다.
하지만 이 새로운 방법은 거대한 아파트를 짓는 것입니다.

  • 수학실: 완전히 독립된 방.
  • 음악실: 수학실과 벽으로 완전히 막힌 다른 방.
  • 그림실: 또 다른 독립된 방.

이 아파트의 핵심은 각 방이 서로 직각 (90 도) 으로 완벽하게 분리되어 있다는 점입니다. 수학 선생님이 수학실에서 소리를 지르면, 음악실에서는 그 소리가 전혀 들리지 않습니다. 서로 간섭하지 않는 것입니다.

3. 어떻게 작동할까? "오르골과 회전하는 원판"

이 아파트를 어떻게 지을까요? 논문의 핵심 기술인 **'직교 풀링 (Orthogonal Pooling)'**을 비유해 보면 다음과 같습니다.

  1. 지도 만들기: AI 가 데이터를 보면, 어떤 특징들이 가장 많이 나타나는지 파악합니다. (예: 물체의 모양, 방향, 색깔 등)
  2. 방 나누기: 이 특징들이 서로 겹치지 않도록, 마치 오르골의 회전축처럼 서로 90 도 각도로 딱딱하게 세워진 '축 (방)'들을 만듭니다.
  3. 정보 넣기: 이제 입력된 이미지 (예: 회전하는 의자) 가 들어오면, AI 는 이 정보를 각 방으로 쪼개서 넣습니다.
    • '의자'라는 정보는 의자 방으로.
    • '회전'이라는 정보는 회전 방으로.
    • '색깔' 정보는 색깔 방으로.

이렇게 하면, '회전'을 배우는 동안 '의자'에 대한 기억은 전혀 망가지지 않습니다. 서로 방해받지 않기 때문입니다.

4. 이 방법의 놀라운 장점: "레고 블록처럼 조립 가능"

이 방식의 가장 멋진 점은 이해 가능성조작 가능성입니다.

기존 AI 는 "왜 이걸 의자라고 했지?"라고 물어봐도 AI 는 "모르겠어요, 그냥 그렇게 계산됐어요"라고 답합니다 (블랙박스).
하지만 이 **'도메인 확장'**을 쓴 AI 는 다음과 같이 작동합니다.

  • 해석: "아, 이 이미지는 '의자 방'에 강한 신호가 있고, '회전 방'에는 약한 신호가 있구나."라고 명확히 알 수 있습니다.
  • 조작 (레고 블록): 만약 우리가 **'의자'**를 **'배'**로 바꾸고 싶다면?
    • '의자'라는 신호를 빼고, '배'라는 신호를 '배 방'에 넣기만 하면 됩니다.
    • 수학적으로 아주 간단한 덧셈과 뺄셈으로, "의자 + 배 = 배 모양의 의자" 같은 새로운 개념을 만들어낼 수 있습니다.

마치 레고 블록을 분리했다가 다시 조립하듯, AI 가 배운 개념들을 자유롭게 섞어서 새로운 것을 만들어낼 수 있는 것입니다.

5. 결론: 왜 이것이 중요한가요?

이 논문은 AI 가 여러 일을 동시에 배울 때 발생하는 **'혼란'**을 해결할 뿐만 아니라, AI 의 두뇌를 사람이 이해하고 조작할 수 있는 구조로 바꿔줍니다.

  • 기존: 여러 일을 하려다 모두 엉켜서 엉망이 됨.
  • 도메인 확장: 각 일을 따로따로 정리된 방에 넣어 서로 방해하지 않게 함.
  • 결과: AI 는 모든 일을 잘 해내면서, 우리가 원하는 대로 개념을 섞고 조작할 수 있게 됨.

이 기술은 앞으로 AI 가 더 공정하고, 예측 가능하며, 우리가 의도한 대로 조종할 수 있는 '지능'으로 발전하는 데 중요한 발판이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →