Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

이 논문은 구성적 시각 관계 (CVR) 작업에서 세 개의 이미지로 규칙을 학습하고 나머지 이미지의 이상치를 식별하기 위해 예측 및 검증 패러다임과 증강 이상 대비 학습을 결합한 PR-A2^2CL 모델을 제안하여 기존 최첨단 모델보다 뛰어난 성능을 달성했다고 요약할 수 있습니다.

Chengtai Li, Yuting He, Jianfeng Ren, Ruibin Bai, Yitian Zhao, Heng Yu, Xudong Jiang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 제목: "AI 가 그림 속 '이질적인 존재'를 찾아내는 새로운 방법"

1. 문제 상황: 왜 이 작업이 어려울까요?

상상해 보세요. 네 개의 그림이 있습니다. 그중 세 개는 어떤 공통된 규칙을 따르고 있고, 나머지 한 개는 그 규칙에서 살짝 벗어난 **'이질적인 그림 (아웃라이어)'**입니다.

  • 예시: 세 그림은 "모든 사물이 둥글고, 빨간색이며, 왼쪽에 있다"는 규칙을 따릅니다. 그런데 네 번째 그림은 "둥글고, 빨간색이지만, 오른쪽에 있다"고 해서 규칙을 깬 거죠.

기존의 AI 는 단순한 규칙 (예: "모두 빨간색") 은 잘 찾지만, **"색깔은 같되 모양은 다르고, 위치는 반대"**처럼 여러 규칙이 섞인 복합적인 상황에서는 매우 혼란을 겪습니다. 마치 초등학생이 간단한 덧셈은 잘하지만, 여러 단어가 섞인 복잡한 문장을 해석하라고 하면 막히는 것과 비슷합니다.

2. 해결책: "예측하고 검증하는" 새로운 AI (PR-A2CL)

저자들은 이 문제를 해결하기 위해 두 가지 핵심 기술을 섞은 PR-A2CL이라는 방법을 제안했습니다.

① 첫 번째 기술: "안티바디 (항체) 같은 학습" (Augmented Anomaly Contrastive Learning)

  • 비유: imagine 치킨을 구별하는 요리사를 상상해 보세요.
    • 보통 요리사는 "진짜 치킨"과 "가짜 치킨"을 구별할 때, 치킨을 돌려보거나 (약한 변형), 껍질을 일부러 벗겨보거나 (강한 변형) 해봅니다.
    • 이 AI 는 **"진짜 규칙을 따르는 그림들 (정상)"**은 변형해도 여전히 서로 닮아 있어야 하고, **"규칙을 깬 그림 (이상치)"**은 아무리 변형해도 다른 그림들과는 확실히 달라야 한다고 배웁니다.
    • 마치 **"진짜 돈과 위조 지폐"**를 구별할 때, 위조 지폐는 빛을 비추거나 만져봐도 뻔히 티가 나도록 훈련시키는 것과 같습니다. 이렇게 하면 AI 는 그림의 겉모습이 바뀌어도 핵심 규칙을 꿰뚫어 볼 수 있게 됩니다.

② 두 번째 기술: "예측하고 확인하는 게임" (Predict-and-Verify)

  • 비유: **"네 명 중 한 명을 고르는 추리 게임"**을 생각해 보세요.
    • 네 장의 카드가 있습니다. AI 는 "내가 3 장의 카드를 보고, 4 번째 카드가 어떤 모습일지 예측해 볼게요"라고 말합니다.
    • 상황 A (정상인 경우): 나머지 3 장이 규칙을 잘 따르고 있다면, AI 는 4 번째 카드의 모습을 정확히 예측할 수 있습니다. (예: "아, 나머지 세 개가 다 빨간색이니까 네 번째도 빨간색이겠지!")
    • 상황 B (이상치인 경우): 만약 4 번째 카드가 규칙을 깬 '이질적인 카드'라면, AI 는 3 장의 규칙적인 카드로는 그 모습을 예측할 수 없습니다. (예: "어? 나머지 세 개는 빨간데, 네 번째는 파란색이라니? 예측이 빗나갔어!")
    • 핵심: AI 는 **"예측이 빗나간 정도 (오차)"**를 계산합니다. 예측이 빗나간 그림이 바로 **규칙을 깬 그림 (아웃라이어)**이라는 것을 알아내는 것입니다.

3. 어떻게 작동하나요? (계층적 추론)

이 과정은 한 번에 끝나는 게 아닙니다.

  • 1 단계: "색깔이 같은가?" 같은 단순한 규칙을 먼저 확인합니다.
  • 2 단계: "색깔은 같은데 모양은 반대인가?"처럼 복합적인 규칙을 확인합니다.
  • 3 단계: 점점 더 복잡한 규칙을 조합하며 인간처럼 추론을 반복합니다.
    마치 수학 문제를 풀 때 먼저 덧셈을 하고, 그다음 뺄셈을 하고, 마지막에 복잡한 식을 계산하는 과정과 비슷합니다.

4. 결과는 어땠나요?

이 새로운 방법 (PR-A2CL) 은 기존에 가장 잘하던 AI 들보다 훨씬 더 잘했습니다.

  • 적은 데이터로도: 그림이 아주 적게 주어졌을 때 (예: 20 장만 보여줌) 도 인간 수준에 가까운 추론을 했습니다.
  • 복잡한 규칙에서도: 여러 가지 규칙이 뒤섞인 어려운 문제에서도 다른 AI 들이 헤매는 동안, 이 AI 는 정확하게 '이질적인 그림'을 찾아냈습니다.

💡 한 줄 요약

이 논문은 **"AI 가 그림의 규칙을 단순히 외우는 게 아니라, '예측'과 '오차 확인'을 반복하며 인간처럼 추론하도록 훈련시키는 새로운 방법"**을 개발했다고 말합니다. 마치 치킨을 구별하는 요리사가 변형된 모습에서도 진짜를 찾아내고, 추리 게임에서 빗나간 예측을 통해 범인을 잡는 것과 같습니다.