Each language version is independently generated for its own context, not a direct translation.

1. 문제: "한 번에 두 마리 토끼를 잡으려다 모두 놓치는 상황"

상상해 보세요. 한 학생이 수학과 음악을 동시에 배우고 있다고 칩시다.

수학 선생님은 "논리적으로 생각하라"고 가르칩니다.
음악 선생님은 "감정적으로 느껴라"고 가르칩니다.

이 학생의 뇌 (AI 의 '잠재 공간') 는 두 가지 지시를 동시에 받아야 합니다. 그런데 두 지시가 서로 충돌하면 어떨까요? 학생은 "그래, 논리적이면서도 감정적인... 어? 그게 뭐지?"라며 중간 지대만 찾게 됩니다. 결과적으로 수학도 못 풀고, 음악도 못 부르는 **'반쪽짜리 실력'**만 갖게 되는 것입니다.

논문에서는 이를 **'잠재 표현 붕괴 (Latent Representation Collapse)'**라고 부릅니다. 여러 일을 동시에 하려다 오히려 모든 것이 엉켜버려서 제대로 된 능력을 발휘하지 못하는 현상입니다. 기존 AI 들은 이 문제를 해결하기 위해 "수학 점수를 조금 더 높게 쳐주자"거나 "음악 점수를 낮게 쳐주자"고 계산하는 식으로 노력해 왔지만, 근본적인 해결책은 아니었습니다.

2. 해결책: "도메인 확장" = "완벽하게 분리된 방들"

이 논문이 제안하는 **'도메인 확장'**은 아주 창의적인 아이디어입니다.

비유: 거대한 아파트 (잠재 공간)
기존 방식은 여러 사람이 좁은 거실 (공유된 뇌 영역) 에 모여서 각자 다른 일을 하려다 부딪히는 상황입니다.
하지만 이 새로운 방법은 거대한 아파트를 짓는 것입니다.

수학실: 완전히 독립된 방.
음악실: 수학실과 벽으로 완전히 막힌 다른 방.
그림실: 또 다른 독립된 방.

이 아파트의 핵심은 각 방이 서로 직각 (90 도) 으로 완벽하게 분리되어 있다는 점입니다. 수학 선생님이 수학실에서 소리를 지르면, 음악실에서는 그 소리가 전혀 들리지 않습니다. 서로 간섭하지 않는 것입니다.

3. 어떻게 작동할까? "오르골과 회전하는 원판"

이 아파트를 어떻게 지을까요? 논문의 핵심 기술인 **'직교 풀링 (Orthogonal Pooling)'**을 비유해 보면 다음과 같습니다.

지도 만들기: AI 가 데이터를 보면, 어떤 특징들이 가장 많이 나타나는지 파악합니다. (예: 물체의 모양, 방향, 색깔 등)
방 나누기: 이 특징들이 서로 겹치지 않도록, 마치 오르골의 회전축처럼 서로 90 도 각도로 딱딱하게 세워진 '축 (방)'들을 만듭니다.
정보 넣기: 이제 입력된 이미지 (예: 회전하는 의자) 가 들어오면, AI 는 이 정보를 각 방으로 쪼개서 넣습니다.
- '의자'라는 정보는 의자 방으로.
- '회전'이라는 정보는 회전 방으로.
- '색깔' 정보는 색깔 방으로.

이렇게 하면, '회전'을 배우는 동안 '의자'에 대한 기억은 전혀 망가지지 않습니다. 서로 방해받지 않기 때문입니다.

4. 이 방법의 놀라운 장점: "레고 블록처럼 조립 가능"

이 방식의 가장 멋진 점은 이해 가능성과 조작 가능성입니다.

기존 AI 는 "왜 이걸 의자라고 했지?"라고 물어봐도 AI 는 "모르겠어요, 그냥 그렇게 계산됐어요"라고 답합니다 (블랙박스).
하지만 이 **'도메인 확장'**을 쓴 AI 는 다음과 같이 작동합니다.

해석: "아, 이 이미지는 '의자 방'에 강한 신호가 있고, '회전 방'에는 약한 신호가 있구나."라고 명확히 알 수 있습니다.
조작 (레고 블록): 만약 우리가 **'의자'**를 **'배'**로 바꾸고 싶다면?
- '의자'라는 신호를 빼고, '배'라는 신호를 '배 방'에 넣기만 하면 됩니다.
- 수학적으로 아주 간단한 덧셈과 뺄셈으로, "의자 + 배 = 배 모양의 의자" 같은 새로운 개념을 만들어낼 수 있습니다.

마치 레고 블록을 분리했다가 다시 조립하듯, AI 가 배운 개념들을 자유롭게 섞어서 새로운 것을 만들어낼 수 있는 것입니다.

5. 결론: 왜 이것이 중요한가요?

이 논문은 AI 가 여러 일을 동시에 배울 때 발생하는 **'혼란'**을 해결할 뿐만 아니라, AI 의 두뇌를 사람이 이해하고 조작할 수 있는 구조로 바꿔줍니다.

기존: 여러 일을 하려다 모두 엉켜서 엉망이 됨.
도메인 확장: 각 일을 따로따로 정리된 방에 넣어 서로 방해하지 않게 함.
결과: AI 는 모든 일을 잘 해내면서, 우리가 원하는 대로 개념을 섞고 조작할 수 있게 됨.

이 기술은 앞으로 AI 가 더 공정하고, 예측 가능하며, 우리가 의도한 대로 조종할 수 있는 '지능'으로 발전하는 데 중요한 발판이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

ICLR 2026 논문 요약: 도메인 확장 (Domain Expansion) - 다중 작업 학습을 위한 잠재 공간 구성 프레임워크

이 논문은 다중 작업 학습 (Multi-Task Learning, MTL) 에서 발생하는 잠재 표현 붕괴 (Latent Representation Collapse) 문제를 해결하기 위해 **도메인 확장 (Domain Expansion)**이라는 새로운 프레임워크를 제안합니다. 저자들은 여러 작업이 공유하는 잠재 공간이 서로 충돌하여 최적의 표현을 학습하지 못하는 현상을 구조적으로 방지하고, 해석 가능하고 구성 가능한 (compositional) 잠재 공간을 구축하는 방법을 제시합니다.

1. 문제 정의: 잠재 표현 붕괴 (Latent Representation Collapse)

배경: 단일 네트워크로 여러 목적 (예: 분류와 회귀, 포즈 추정 등) 을 동시에 학습하는 것은 일반적이지만, 서로 다른 작업의 목적 함수 (Loss) 가 상충되는 그라디언트 (Gradient) 를 생성합니다.
문제점: 이러한 상충되는 그라디언트는 공유된 잠재 특징 (Shared Latent Features) 을 서로 반대 방향으로 당겨, 모든 작업에 대해 타협된 (compromised) 상태인 잠재 표현 붕괴를 초래합니다.
- 이는 예측 정확도 저하를 일으킬 뿐만 아니라, 특징들이 얽혀 (entangled) 해석이 불가능한 '블랙박스' 상태가 됩니다.
기존 방법의 한계: 기존 MTL 방법들 (GradNorm, PCGrad 등) 은 최적화 과정 중 그라디언트를 재조정하거나 투영하는 방식으로 충돌을 완화하려 하지만, 이는 사후 대응 (reactive) 적이며 잠재 공간의 구조적 문제 자체를 해결하지는 못합니다.

2. 방법론: 도메인 확장 (Domain Expansion)

저자는 그라디언트 충돌을 중재하는 대신, 잠재 공간의 구조 자체를 재구성하여 충돌을 원천적으로 차단하는 도메인 확장을 제안합니다. 핵심 아이디어는 각 목적 (Objective) 을 서로 직교하는 (mutually orthogonal) 부분 공간에 할당하는 것입니다.

핵심 구성 요소:

주성분 축 찾기 (Find Principal Axes):
- 학습 데이터의 잠재 특징 분포에 대한 공분산 행렬 (Covariance Matrix) 을 계산하고 고유분해 (Eigendecomposition) 를 수행합니다.
- 이를 통해 데이터의 분산이 가장 큰 고유벡터 (Eigenvectors) 들을 찾아 직교 기저 (Orthonormal Basis) 를 구성합니다.
직교 도메인 정의 (Define Orthogonal Domain):
- 학습하려는 $M$ 개의 작업에 대해 상위 $M$ 개의 고유벡터를 선택하여 '도메인'을 형성합니다.
- 각 고유벡터 $v_m$ 은 하나의 특정 작업 개념 $C_m$ 에 할당되며, 해당 작업의 특징은 이 1 차원 부분 공간 (Subspace) 에만 존재하도록 제한됩니다.
직교 풀링 (Orthogonal Pooling):
- 공유된 잠재 특징 $f$ 를 각 작업에 할당된 직교 축으로 투영 (Projection) 합니다.
- $f^{proj}_m = Proj_m(f - \mu)$
- 이렇게 분리된 특징들은 독립적인 디코더를 통해 각 작업의 타겟으로 변환되며, 손실 함수는 이 분리된 특징들에 대해 개별적으로 계산됩니다.

수학적 속성 및 연산자:

이 구조는 잠재 공간을 **해석 가능한 개념 대수 (Concept Algebra)**로 만듭니다.

직교성: 각 작업의 표현 공간이 서로 직교하므로, 한 작업의 학습이 다른 작업에 간섭하지 않습니다.
구성 연산 (Composition): 벡터 연산을 통해 개념을 조작할 수 있습니다.
- 개념 조정 ( $\oplus_m$ ): 특정 작업의 특징을 변경할 때 다른 작업에는 영향을 주지 않습니다.
- 개념 합성 ( $\oplus$ ): 두 개의 완전한 개념 벡터를 더하거나 빼서 새로운 합성 개념을 생성할 수 있습니다.

3. 실험 및 결과

저자들은 ShapeNet, MPIIGaze, Rotated MNIST 등 다양한 벤치마크에서 분류 (Classification) 와 회귀 (Pose, Gaze estimation) 를 결합한 다중 목적 문제를 통해 방법을 검증했습니다.

비교 대상: 단순 가중 합 (Baseline), Nash-MTL, FAMO, IMTL 등 기존 그라디언트 기반 MTL 방법.
주요 결과:
- 성능 향상: 제안된 방법은 모든 작업에서 표현 품질 (Spearman 상관관계, V-score) 과 예측 정확도 (MAE, Accuracy) 에서 기존 방법들을 압도적으로 능가했습니다.
- 붕괴 방지: Baseline 모델들은 높은 분류 정확도를 보일지라도 잠재 공간이 붕괴되어 (V-score 낮음) 특징이 얽혀 있는 반면, 제안 방법은 명확하게 분리된 구조를 유지했습니다.
- 구성 가능성 검증: 잠재 공간에서의 벡터 연산 ( $\oplus, \ominus$ ) 을 통해 새로운 개념을 정확하게 추론 (Inference) 할 수 있음을 확인했습니다. (Cosine Similarity 기준 Baseline 대비 월등히 높은 점수).
- 지속 학습 (Continual Learning): 새로운 작업을 추가할 때 기존 작업을 재학습하지 않고도 새로운 직교 축을 찾아 추가 학습이 가능하며, catastrophic forgetting 을 방지할 수 있음을 보였습니다.

4. 주요 기여 (Contributions)

잠재 표현 붕괴의 공식화: 다중 목적 표현 학습에서 발생하는 실패 모드를 명확히 정의하고 분석했습니다.
도메인 확장 프레임워크 제안: 직교 풀링 (Orthogonal Pooling) 을 통해 작업 간 간섭을 구조적으로 방지하는 새로운 아키텍처를 제시했습니다.
해석 가능하고 구성 가능한 잠재 공간: 직교 축이 서로 다른 개념에 대응되도록 설계하여, 모델이 학습한 표현을 수학적으로 조작하고 분석할 수 있는 능력을 입증했습니다.

5. 의의 및 결론

이 논문은 다중 작업 학습의 근본적인 문제인 '경쟁하는 그라디언트'를 최적화 단계가 아닌 표현 공간의 구조적 설계를 통해 해결한다는 점에서 의미가 큽니다.

해석 가능성: 블랙박스였던 잠재 공간이 각 축이 명확한 의미를 갖는 구조로 변모하여, 모델의 의사결정 과정을 이해하고 조작할 수 있게 합니다.
응용 가능성: 알고리즘적 공정성 (Algorithmic Fairness), 제어 가능한 멀티모달 콘텐츠 생성 등, 특정 속성을 정밀하게 제어해야 하는 분야에서 강력한 기반을 제공합니다.
미래 방향: 추상적인 잠재 공간의 조합을 인간이 이해할 수 있는 생성물 (이미지, 텍스트 등) 로 변환하기 위해 생성 모델 (Diffusion, LLM) 과 결합하는 연구가 유망한 후속 작업으로 제시되었습니다.

요약하자면, 도메인 확장은 다중 작업 학습이 겪는 타협과 혼란을 끝내고, 각 작업이 독립적으로 그리고 명확하게 학습될 수 있는 구조화된 잠재 공간을 구축하는 혁신적인 접근법입니다.

Domain Expansion: A Latent Space Construction Framework for Multi-Task Learning

1. 문제: "한 번에 두 마리 토끼를 잡으려다 모두 놓치는 상황"

2. 해결책: "도메인 확장" = "완벽하게 분리된 방들"

3. 어떻게 작동할까? "오르골과 회전하는 원판"

4. 이 방법의 놀라운 장점: "레고 블록처럼 조립 가능"

5. 결론: 왜 이것이 중요한가요?

ICLR 2026 논문 요약: 도메인 확장 (Domain Expansion) - 다중 작업 학습을 위한 잠재 공간 구성 프레임워크

1. 문제 정의: 잠재 표현 붕괴 (Latent Representation Collapse)

2. 방법론: 도메인 확장 (Domain Expansion)

핵심 구성 요소:

수학적 속성 및 연산자:

3. 실험 및 결과

4. 주요 기여 (Contributions)

5. 의의 및 결론

유사한 논문

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models