ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "ITO (Images and Texts as One)" 라는 새로운 인공지능 학습 방법을 소개합니다. 쉽게 말해, "사진과 글이 마치 한 쌍의 친구처럼 자연스럽게 어울리게 만드는 기술" 이라고 할 수 있습니다.

기존의 AI 는 사진과 글의 관계를 배우는 데는 능숙했지만, 두 가지가 섞여 있는 '공통의 언어'를 완전히 터득하지는 못했습니다. ITO 는 이 문제를 해결하기 위해 두 가지 핵심 전략을 사용합니다.

이걸 이해하기 쉽게 **'외국어 배우기'**와 **'연극 연습'**에 비유해서 설명해 드릴게요.

1. 기존 방법의 문제점: "서로 다른 언어를 쓰는 두 친구"

기존의 AI(예: CLIP) 는 사진을 보고 "이건 고양이야"라고 말하고, 글자를 보고 "고양이"라고 인식하면 두 가지를 연결합니다. 하지만 마치 한국어를 쓰는 사람과 영어를 쓰는 사람이 서로의 뜻을 알아듣는 것처럼 겉만 연결된 상태입니다.

문제: AI 의 뇌속에서 '사진'이 저장되는 공간과 '글자'가 저장되는 공간이 여전히 따로따로 나뉘어 있습니다. 그래서 아주 미세한 뉘앙스나 복잡한 상황에서는 두 공간이 잘 통하지 않아서 실수가 나옵니다.

2. ITO 의 해결책: "두 가지 비법"

ITO 는 이 문제를 해결하기 위해 두 가지 비법을 동시에 사용합니다.

비법 1: "다양한 친구 관계 맺기" (Multimodal Multiple Alignment)

상황: 기존에는 "사진 A"와 "글자 A" 한 쌍만 연결했습니다.
ITO 의 방식: 같은 사진이라도 밝게, 어둡게, 자르기 등 다양한 모습으로 변형하고, 글자도 긴 설명, 짧은 설명으로 바꿔서 연결합니다.
비유: 한 친구를 만나서 "안녕"이라고 인사하는 게 아니라, 그 친구를 다양한 옷차림으로 만나고, 다양한 주제로 대화하며 관계를 깊게 맺는 것과 같습니다. 이렇게 하면 AI 는 "아, 이 사진은 글자와 정말 깊은 관계가 있구나!"라고 더 확실하게 배우게 됩니다.

비법 2: "연습용 가상의 파트너" (Training-Time Fusion)

상황: 두 친구가 따로따로 연습을 하면, 서로의 말투가 섞이지 않습니다.
ITO 의 방식: 학습하는 동안만 **가상의 중재자 (융합 모듈)**를 세워둡니다. 이 중재자는 사진과 글자를 한 번에 보고 "이 두 가지는 이렇게 섞여야 해!"라고 가르쳐 줍니다.
핵심 포인트: 이 중재자는 학습이 끝나면 바로 사라집니다 (Inference 시 제거).
비유: 연극 연습을 생각해보세요. 배우들이 무대 위에서 서로의 대사를 자연스럽게 맞추기 위해 연출가가 중간중간 끼어들어 "너는 이렇게 말하고, 너는 이렇게 반응해"라고 지도합니다. 하지만 실제 공연 (실제 사용) 이 시작되면 연출가는 무대에서 사라지고, 배우들은 연출가의 도움 없이도 자연스럽게 연기할 수 있게 됩니다.
- ITO 는 이 '연출가 (융합 모듈)'를 통해 배우들 (사진과 글자 인코더) 이 서로의 리듬을 완벽하게 익히게 한 뒤, 실제 무대에서는 그 도움 없이도 완벽하게 연기하게 만드는 것입니다.

3. 왜 이 방법이 대단한가요?

효율성: 실제 사용할 때는 무거운 '연출가 (융합 모듈)'가 없기 때문에, 기존 AI 와 똑같이 빠르고 가볍게 작동합니다.
안정성: 학습하는 동안 중재자가 개입함으로써, AI 가 너무 일찍 지치거나 (과적합) 엉뚱한 방향으로 가는 것을 막아줍니다. 마치 운동할 때 코치가 있어 더 올바른 자세로 훈련하는 것과 같습니다.
결과: 사진과 글자가 완전히 하나로 통합된 '공통의 언어'를 배우게 되어, 이미지 검색, 질문 답변, 복잡한 추론 등 모든 작업에서 기존 AI 보다 훨씬 뛰어난 성능을 보여줍니다.

요약

ITO는 AI 가 사진과 글을 배우는 방식을 바꿉니다.

기존: 사진과 글을 따로따로 연결해서 "아, 이게 저거네"라고 외우는 방식.
ITO: 다양한 각도로 관계를 맺게 하고, 학습 중에는 가상의 코치를 붙여서 두 가지가 완전히 섞이도록 훈련시킨 뒤, 실제 사용 시에는 코치를 없애고 두 가지가 자연스럽게 하나가 된 상태로 작동하게 만드는 방식입니다.

이 덕분에 AI 는 더 똑똑해졌으면서도, 속도는 그대로 유지된 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 이미지 - 텍스트 대비 학습 (Contrastive Pretraining, 예: CLIP) 은 시각 표현 학습의 주류 패러다임으로 자리 잡았으며, 제로샷 분류, 검색, 멀티모달 LLM 의 백본 등으로 널리 사용됩니다.
문제점: 기존 대비 학습 방법들은 이미지와 텍스트 간의 인스턴스 레벨 매칭 (Instance-level matching) 을 강화하지만, 임베딩 공간 내에서 표현이 여전히 모달리티 (Modality) 별로 분리되어 있는 현상을 해결하지 못합니다.
- 즉, 이미지 임베딩과 텍스트 임베딩이 각각 별도의 부분 공간 (Subspace) 을 형성하며, 의미적으로 통합되지 않은 채 '모달리티 간격 (Modality Gap)'이 존재합니다.
- 이는 모델이 진정한 통합된 의미 공간을 학습하기보다 모달리티 특유의 단축 경로 (Shortcuts) 에 의존하게 만듭니다.
기존 방법의 한계:
- 인퍼런스 시에도 융합 (Fusion) 모듈을 사용하는 방법들은 계산 비용이 증가하여 확장성이 떨어집니다.
- 인퍼런스 시에는 이중 인코더 (Dual-encoder) 구조를 유지하면서, 학습 단계에서만 모달리티 간격을 줄이고 표현을 통합하는 방법은 충분히 연구되지 않았습니다.

2. 제안 방법: ITO (Methodology)

저자들은 ITO (Images and Texts as One) 라는 새로운 프레임을 제안하며, 두 가지 시너지 메커니즘을 통해 위 문제를 해결합니다. 핵심은 학습 시에만 융합 모듈을 사용하고, 추론 시에는 이를 제거하여 기존 CLIP 과 동일한 효율성을 유지한다는 점입니다.

A. 멀티모달 다중 정렬 (Multimodal Multiple Alignment)

목적: 데이터의 잠재적 정보 용량을 극대화하고 감별력 (Discriminative Power) 을 높입니다.
방식: 단일 이미지 - 텍스트 쌍을 하나의 긍정 샘플로만 취급하는 대신, 데이터 증강 (Augmentation) 을 통해 하나의 원본 샘플에서 파생된 다양한 이미지 - 텍스트 조합을 생성합니다.
- 예: 하나의 이미지에 대해 여러 뷰 (View) 를 생성하거나, 하나의 텍스트를 여러 하위 설명 (Sub-descriptions) 으로 분해하여 활용합니다.
효과: 배치 내에서 1 대 1 매칭을 넘어선 1 대 다 (One-to-Many) 또는 다 대 다 (Many-to-Many) 의 정렬 관계를 학습하게 하여 대비 학습의 감독 신호를 풍부하게 만듭니다.

B. 학습 시 멀티모달 융합 (Training-Time Multimodal Fusion)

목적: 표현 공간의 구조적 통합을 강제하고 모달리티 간격을 제거합니다.
방식:
- 학습 단계에서 이미지 토큰과 텍스트 토큰을 연결 (Concatenate) 한 후, 경량화된 2 층 Transformer 기반의 융합 모듈 (Fusion Module) 을 통과시킵니다.
- 이 융합된 표현에 대해 대비 손실 (Contrastive Loss) 을 계산하여, 동일한 원본에서 나온 다양한 증강 뷰 간에는 가깝게, 다른 샘플 간에는 멀어지도록 학습합니다.
핵심 특징: 이 융합 모듈은 학습이 완료되면 폐기 (Discard) 됩니다. 따라서 추론 시에는 표준 이중 인코더 구조로 돌아가며, 추가적인 계산 비용이나 파라미터가 발생하지 않습니다.
역할: 단순한 정렬을 넘어, 인코더가 모달리티 특화 과적합 (Modality-specific overfitting) 을 피하고 통합된 의미 공간을 형성하도록 구조적 정규화제 (Structural Regularizer) 로 작용합니다.

C. 전체 목적 함수

$L = L_{Align} + \lambda L_{Fusion}$
여기서 $L_{Align}$ 은 다중 정렬 손실, $L_{Fusion}$ 은 융합 손실이며, $\lambda$ 는 두 가지 목표 간의 균형을 조절합니다.

3. 주요 기여 및 분석 (Key Contributions & Analysis)

정렬 (Alignment) 과 통합 (Integration) 의 구분:
- 기존 연구는 정렬을 강화하는 데 집중했으나, ITO 는 정렬이 반드시 통합을 의미하지는 않음을 지적하고, 학습 시 융합이 표현 공간의 구조를 재구성 (Reshape) 하는 핵심 요소임을 증명했습니다.
구조적 정규화 효과:
- 분석 결과, 다중 정렬만으로는 학습 초기에 성능이 포화되거나 과적합 (Overfitting) 이 발생하는 경향이 있으나, 학습 시 융합을 추가하면 학습 동역학이 안정화되어 장기적인 학습에서도 성능이 지속적으로 향상됩니다.
효율성 유지:
- 인퍼런스 시 추가 모듈이 없어 CLIP 과 동일한 추론 속도와 메모리 효율을 가지면서도, 더 우수한 표현 품질을 달성합니다.

4. 실험 결과 (Results)

ITO 는 다양한 데이터셋 (CC3M, CC12M, YFCC15M, Laion100M, DataComp-1B) 과 백본 (ViT-B/16, ViT-L/16) 에서 강력한 베이스라인 (CLIP, SigLIP, FLAIR 등) 을 능가했습니다.

제로샷 이미지 분류 (Zero-shot Classification):
- 26 개 벤치마크에서 일관되게 높은 정확도를 기록했습니다. 특히 DataComp-1B(10 억 개 샘플) 규모에서는 ViT-B/16 기준 평균 정확도가 CLIP 대비 2.6%p 이상 향상되었습니다.
선형 분류 (Linear Classification):
- 고정된 시각 특징에 선형 분류기를 부착했을 때, ITO 는 더 높은 선형 분리 가능성 (Linear Separability) 을 보여주었습니다.
이미지 - 텍스트 검색 (Retrieval):
- COCO, Flickr30k, DOCCI(세부 묘사) 등에서 이미지 - 텍스트 간 정렬이 더 정교해져 검색 성능이 크게 개선되었습니다.
멀티모달 LLM 백본 (MLLM Backbone):
- LLaVA-1.5 에 적용 시, 복잡한 추론 작업 (VQAv2, MMVet 등) 에서 기존 CLIP 기반 모델보다 우수한 성능을 보이며, 언어 모델의 적응 장벽을 낮추는 효과가 있음을 입증했습니다.
시각화 (UMAP):
- CLIP 은 이미지와 텍스트 임베딩이 명확히 분리된 클러스터를 형성하는 반면, ITO 는 두 모달리티가 교차하며 통합된 별 모양 (Star-shaped) 분포를 보여 모달리티 간격이 해소되었음을 시각적으로 증명했습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: 이미지 - 텍스트 대비 학습에서 단순한 '정렬 (Alignment)'을 넘어 '통합 (Integration)'을 명시적으로 달성하는 새로운 방향을 제시했습니다.
실용성: 학습 시에만 복잡한 모듈을 사용하여 표현을 개선하고, 배포 시에는 경량화된 표준 구조를 유지함으로써 성능과 효율성을 동시에 확보하는 실용적인 솔루션을 제공합니다.
확장성: 대규모 데이터 (Billion-scale) 와 다양한 모델 크기에서도 안정적으로 확장 가능하며, 멀티모달 AI 의 기초 표현 학습을 위한 강력한 새로운 표준이 될 수 있음을 시사합니다.

요약하자면, ITO는 학습 단계에서의 임시 융합을 통해 이미지와 텍스트가 하나의 통합된 의미 공간으로 학습되도록 유도함으로써, 기존 대비 학습 모델의 구조적 한계를 극복하고 성능을 획기적으로 개선한 프레임워크입니다.