로봇이 다양한 종류의 새를 인식하도록 가르치려 한다고 상상해 보세요. 햇살이 비치는 들판, 비가 내리는 숲, 그리고 일부 만화 그림까지 찍은 '붉은날개까마귀' 사진 수천 장을 로봇에게 보여줍니다.

대부분의 현재 AI 모델은 새의 색깔과 질감을 외우는 방식으로 학습합니다. "빨간 깃털과 검은 몸통이 있다면 그것은 붉은날개까마귀다"라고 생각할 수 있습니다. 하지만 이는 함정입니다. 새가 파랗고 평평하게 그려진 만화 그림을 로봇에게 보여주면, '빨간 깃털'이 없기 때문에 로봇은 혼란에 빠집니다. 한 환경에서 다른 환경으로 변하는 불안정한 세부 사항에 의존했기 때문에 실패하는 것입니다.

이 문제를 해결하기 위해 해당 논문은 PARSE(Primitive-Aware Relational Structure for domain gEneralization, 도메인 일반화를 위한 원시 인식 관계 구조) 라는 새로운 방법을 소개합니다. 간단히 설명하면 다음과 같습니다:

1. "레고" 접근법: 원시 (Primitives) 찾기

새 전체를 하나의 큰 색 덩어리로 보는 대신, PARSE 는 이미지를 원시(primitives) 라고 불리는 작고 재사용 가능한 구성 요소로 분해합니다.

비유: 새를 단일 객체가 아니라 '부리 조각', '날개 조각', '눈 조각', '꼬리 조각'과 같은 레고 조각들의 집합으로 생각하세요.
작동 방식: AI 는 인간이 상자 그릴 필요 없이 스스로 이러한 특정 부분들을 찾아내는 법을 배웁니다. 부리가 어디에, 날개가 어디에 있는지 등을 보여주는 '히트맵'을 생성합니다. 중요한 점은 AI 가 색깔뿐만 아니라 부리의 형태를 배우는다는 것입니다. 따라서 만화 속 새가 파랗더라도 AI 는 여전히 '부리 형태'를 인식합니다.

2. "규칙집": 관계 이해하기

조각들을 찾는 것만으로는 부족하며, 어떻게 조립되는지도 알아야 합니다. 부리와 날개가 있는 새는 새이지만, 그 사이에 몸통 없이 부리와 날개가 공중에 떠 있는 것은 말이 안 됩니다.

비유: 새를 조립하기 위한 엄격한 규칙집을 상상해 보세요. 규칙집은 "부리는 가슴보다 위에 있어야 한다", "날개는 양옆에 연결되어 있어야 한다", "눈은 수평으로 정렬되어 있어야 한다"고 말합니다.
마법: PARSE 는 이러한 관계를 확인하기 위해 수학적 '술어'(규칙) 를 사용합니다. "날개가 꼬리의 왼쪽에 있는가?" 또는 "눈들이 부리와 삼각형을 이루는가?"와 같은 질문을 던집니다. 이러한 규칙은 유연합니다 (soft), 즉 약간의 변형을 처리할 수 있지만, 기하학적 구조(배치) 에 대해서는 엄격합니다.

3. "탐정": 모두 통합하기

AI 가 새로운 이미지를 볼 때, 색깔만으로 추측하지 않습니다. 대신 탐정처럼 행동합니다:

레고 조각들 (원시) 을 찾습니다.
규칙집을 확인하여 해당 조각들이 올바른 패턴으로 배열되었는지 살펴봅니다.
"부리가 가슴 위에 있고" "날개가 양옆에 있다면", AI 는 색깔이 이상하거나 스타일이 만화라 하더라도 그것이 새임을 확신합니다.

왜 이것이 더 나은가요?

이 논문은 다른 AI 모델들이 쉽게 변하는 새의 외관을 외우려 하는 반면, PARSE 는 변하지 않는 새의 구조를 외운다고 주장합니다.

결과: 사진에서 만화와 그림으로 변한 새들의 데이터셋으로 테스트했을 때, PARSE 는 이전 방법들보다 훨씬 더 높은 점수를 받았습니다. 어려운 새 데이터셋에서 정확도가 4.5% 이상 향상되었습니다.
효율성: 이러한 모든 규칙을 확인하는 것이 복잡해 보이지만, 시스템은 똑똑합니다. 학습 후 일부 규칙이 특정 새들에게는 쓸모없다는 것을 학습하고 이를 '가지치기'(삭제) 합니다. 이로 인해 최종 시스템은 빠르고 경량화되어 표준 AI 모델과 거의 동일한 속도를 냅니다.

요약

PARSE 는 AI 에게 무엇이 어떻게 생겼는지가 아니라 부분들이 어떻게 조립되는지를 이해함으로써 사물을 인식하도록 가르칩니다. 이는 차가 빨갛기 때문에 차라고 인식하는 것 (차가 파랗다면 실패함) 과 차가 몸통 아래에 바퀴가 있고 위에 앞유리가 있기 때문에 차라고 인식하는 것 (색깔이나 스타일에 관계없이 작동함) 의 차이와 같습니다. 이는 AI 가 새로운, 보지 못한 환경에 직면했을 때 훨씬 더 강건하고 신뢰할 수 있게 만듭니다.

기술 요약: 도메인 일반화를 위한 원시 인식 관계 구조 (PARSE)

문제 정의

도메인 일반화 (DG) 는 카메라, 조명, 시점 또는 스타일의 분포 변화에도 불구하고 보이지 않는 타겟 도메인에서 정확도를 유지하는 분류기를 훈련하는 것을 목표로 합니다. 기존 DG 방법들은 주로 훈련 과정 개선 (예: 데이터 증강, 특징 정렬, 또는 모델 선택) 에 초점을 맞추지만, 대부분 구조적 구성을 암시적으로 포착하기 위해 백본 표현에 크게 의존합니다. 저자들은 이러한 암시적 접근 방식이 구조적 구성을 미구현된 상태로 남겨두어, 도메인 변화가 외관에는 큰 변화를 주지만 공간적 배치는 유지되는 벤치마크 (예: 사진 대 만화로 렌더링된 동일한 조류 종) 에서 성능을 제한한다고 주장합니다. 기존 방법들은 도메인 변화 하에서 강력한 인식을 위해 중요한 시각적 부분 간의 안정적인 공간 관계를 명시적으로 모델링하지 못하는 경우가 많습니다.

방법론: PARSE 프레임워크

저자들은 시각적 인식을 **시각적 원시 (visual primitives)**와 그들의 관계적 구성으로 분해하는 엔드 투 엔드 미분 가능 프레임워크인 **도메인 일반화를 위한 원시 인식 관계 구조 (Primitive-Aware Relational Structure for domain gEneralization, PARSE)**를 제안합니다.

1. 시각적 원시 및 기술자

PARSE 는 $K$ 개의 학습된 시각적 원시 집합을 가정합니다. 이러한 원시들은 수동 주석이 필요하지 않고 이미지 수준의 감독으로부터 학습됩니다. 각 원시 $p_k$ 에 대해 네트워크는 다음으로 구성된 이미지 의존적 기술자 $z_k(X) = \langle c_k, \sigma_k, \delta_k \rangle$ 를 출력합니다:

공간 위치 ( $c_k$ ): 미분 가능한 히트맵에서 유도된 2D 좌표.
존재 점수 ( $\sigma_k$ ): 원시의 존재를 나타내는 신뢰도 값.
공간 범위 ( $\delta_k$ ): 원시의 크기를 측정하는 값.

2. 미분 가능한 공간 술어

구조적 불변성을 포착하기 위해 PARSE 는 원시 위치에 대한 소프트 미분 가능한 공간 술어의 어휘를 사용합니다. 이러한 술어는 $[0, 1]$ 범위의 만족 점수를 출력합니다:

단항 (Unary): $R_{has}$ (원시의 존재).
이항 (Binary): 상대적 위치 ( $R_{above}, R_{left}$ ), 정렬 ( $R_{h-align}, R_{v-align}$ ), 근접성 ( $R_{near}$ ), 포함 ( $R_{contains}$ ) 과 같은 쌍별 관계를 인코딩합니다.
삼항 (Ternary): 삼각형 구성 ( $R_{tri}$ ) 과 순서 있는 체인에서의 회전 각도 ( $R_{turn}$ ) 와 같은 기하학적 단서를 모델링합니다.
사항 (Quaternary): 두 원시 쌍 간의 관계를 비교하여 상대적 방향 ( $R_{orient}$ ) 과 상대적 유클리드 거리 ( $R_{eqdist}$ ) 를 평가합니다.

모든 술어 매개변수 (예: 마진, 허용 오차, 날카로움) 는 학습 가능하며 클래스 간에 전역적으로 공유됩니다.

3. 네트워크 아키텍처

이 프레임워크는 엔드 투 엔드 학습 가능한 세 가지 구성 요소로 구성됩니다:

시각 백본: CNN(예: ResNet) 이 일반적인 시각적 특징을 추출합니다.
개념 병목 계층: 백본 특징을 $K$ 개의 원시 히트맵으로 매핑합니다. 온도 정규화된 소프트 - argmax 연산을 사용하여 이러한 히트맵은 미분 가능한 공간 좌표, 존재 점수 및 범위로 변환됩니다.
구조적 점수 계층:
- 술어 어휘에 대한 원시의 모든 유효한 할당을 나열합니다.
- 술어 활성화 점수 벡터 $a(X)$ 를 계산합니다.
- sparsemax 정규화를 사용하여 이러한 활성화에 대한 클래스별 희소 가중치 $\lambda_c$ 를 학습합니다.
- 희소 가중치와 활성화 벡터의 내적으로 최종 클래스 점수 $s_c(X)$ 를 계산합니다.

모델은 구조적 점수에 대한 교차 엔트로피 손실을 사용하여 엔드 투 엔드로 훈련되며, 분류 작업에서 원시 검출기 및 술어 매개변수로 역전파가 가능하도록 합니다.

주요 기여

구조 인식 프레임워크: 암시적 특징 정렬에만 의존하는 것이 아니라 학습된 원시와 공간 관계의 구성으로 시각적 범주를 명시적으로 모델링하는 DG 에 대한 새로운 접근 방식.
엔드 투 엔드 미분 가능 아키텍처: 수동 부분 주석이 필요 없이 원시 검출기, 공간 기술자 및 구조적 술어를 함께 학습하는 통합 모델.
미분 가능한 구조적 귀납적 편향: 신경 - 심볼릭 추론에서 의미적 목표로 사용되는 것과 구별되는, 분류를 위한 구조적 편향으로서 소프트 이항, 삼항 및 사항 술어의 사용.
희소 구조 압축: 훈련이 대부분의 클래스 - 관계 가중치를 0 으로 유도하여 효율적인 추론을 위해 비활성 관계를 제거할 수 있게 하는 메커니즘.

실험 결과

저자들은 PARSE 를 두 가지 벤치마크에서 평가했습니다:

CUB-DG (구성적 도메인 일반화):
- PARSE 는 평균 정확도 **65.6%**를 달성하여 이전 최첨단 (ERM++) 보다 4.5 퍼센트 포인트 더 높은 성능을 보였습니다.
- 네 개의 타겟 도메인 (Photo, Cartoon, Art) 중 세 개에서 최고의 정확도를 달성했습니다.
- 제거 실험은 원시 기술자만 사용한 기준선 대비 관계적 술어 (이항, 삼항, 사항) 를 추가하는 것이 일관되게 성능을 향상시켰음을 확인했습니다.
DomainBed:
- PARSE 는 다섯 개의 데이터셋에서 평균 정확도 **66.7%**를 달성했습니다.
- MIRO 와 GVRT 를 능가했으며 SWAD 와 0.2 포인트 이내로 경쟁력을 유지했습니다.
- TerraIncognita 데이터셋에서 이전 최고 기록을 3.6 포인트 개선하여 최고의 결과를 달성했습니다.
효율성:
- 구조 계층이 매개변수를 도입하지만, 백본 (ResNet-50 순전파가 지배적) 에 비해 계산 오버헤드는 미미합니다.
- 훈련 후 sparsemax 를 통한 가지치기는 성능 저하 없이 구조적 매개변수를 99% 이상 줄입니다.

중요성 및 주장

이 논문은 PARSE 가 도메인 일반화에서 명시적 구조적 귀납적 편향의 가치를 입증한다고 주장합니다. 지역적 원시 외관과 구성적 구조 간에 증거를 분산함으로써, 모델은 외관 변화 (예: 질감, 스타일) 에 더 강건해지면서 안정적인 공간 조직 (예: 부분 배치) 을 활용합니다.

저자들은 그들의 접근 방식이 기존 특징 중심 방법을 보완한다고 강조합니다. 원시를 신뢰할 수 있게 국소화할 수 있고 공간적 구조가 유익한 정보를 제공할 때 이 방법이 가장 효과적이지만, 프레임워크는 엔드 투 엔드 학습 가능성을 희생하지 않으면서 딥러닝과 구조적 추론 간의 간극을 성공적으로 연결한다고 지적합니다. 이 연구는 DG 의 미래 개선이 더 나은 원시 표현과 적응형 술어 어휘에 있을 수 있음을 시사합니다.

Domain Generalization through Spatial Relation Induction over Visual Primitives