Enhancing Alignment for Unified Multimodal Models via Semantically-Grounded Supervision

Each language version is independently generated for its own context, not a direct translation.

과거의 인공지능 (UMM) 은 그림을 그릴 때 두 가지 큰 문제를 겪었습니다.

지시사항이 너무 모호함 (Granularity Mismatch):
- 상황: 학생 (AI) 이 "강아지 한 마리가 빨간 재킷을 입고 노트북을 쓰고 있어"라고 적힌 지시사항만 보고 그림을 그려야 합니다.
- 문제: "빨간 재킷"은 구체적이지만, "어떤 재질인지", "어떤 표정인지", "배경은 어떤지"는 정해지지 않았습니다. AI 는 이 빈칸을 임의로 채우다가, 정답 (원래 있던 이미지) 과 조금만 달라도 점수를 못 받습니다. 결국 AI 는 의미 없는 세부사항 (예: 배경의 먼지) 을 외우느라 핵심을 놓치게 됩니다.
너무 많은 정보에 혼란스러움 (Supervisory Redundancy):
- 상황: 최근 기술들은 지시사항이 부족할 때, 원본 그림 전체를 보여주고 "이걸 다시 그려봐"라고 했습니다.
- 문제: 원본 그림에는 강아지뿐만 아니라 '벽에 걸린 그림', '바닥의 먼지' 같은 중요하지 않은 배경도 다 포함되어 있습니다. AI 는 중요한 강아지 (핵심) 보다, 덜 중요한 배경 (잡음) 에 집중해서 에너지를 낭비하게 됩니다.

이 논문은 **"무엇을 보여주고, 무엇을 숨겨야 할지"**를 지시사항 (텍스트) 에 맞춰 똑똑하게 골라주는 **'세미그로스'**를 제안합니다.

비유: 그림을 그릴 때, "강아지", "빨간 재킷", "노트북" 같은 핵심 단어만 남기고, "한 마리가", "있어" 같은 부수적인 말은 버리는 과정입니다.
효과: AI 가 "무엇을 그릴지"에 집중할 수 있게 해줍니다.

비유: 원본 그림을 확대경으로 보며, "이 부분은 '빨간 재킷'이라는 말과 가장 잘 어울리네!", "저 부분은 '노트북'과 연결되네!"라고 연결점을 찾아냅니다.
효과: 텍스트와 이미지가 어디에서 만나는지 정확히 파악합니다.

이제 AI 에게 그림을 그리게 할 때 두 가지 방법을 동시에 씁니다.

전략 A: "핵심 힌트"만 보여주기 (Visual Hints)
- 비유: 학생에게 그림 전체를 보여주는 대신, "강아지의 얼굴"과 "빨간 재킷" 부분만 잘라낸 사진을 보여줍니다.
- 이유: 배경 같은 잡다한 정보는 빼고, AI 가 가장 중요한 부분 (핵심 의미) 에만 집중하게 합니다.
전략 B: "중요한 부분"을 가리고 다시 그리게 하기 (Semantically-Grounded Corrupted Input)
- 비유: 학생에게 "이 그림을 다시 그려봐"라고 할 때, 중요하지 않은 배경 (벽, 바닥) 은 그대로 보여주고, 가장 중요한 강아지와 재킷 부분은 가리고 (마스크) "이 가려진 부분을 맞춰서 그려봐"라고 시킵니다.
- 이유: AI 가 중요한 부분 (강아지) 을 다시 그리는 연습을 하도록 강요합니다. 그래서 AI 는 배경 같은 사소한 것보다 핵심적인 의미를 배우게 됩니다.

이 방법을 쓰면 AI 는 다음과 같은 변화를 겪습니다.

"SeGroS 는 인공지능에게 그림을 그릴 때, '중요한 부분 (핵심)'은 가려서 다시 그리게 하고, '중요한 힌트'만 골라서 보여줌으로써, 텍스트와 그림이 완벽하게 일치하도록 가르치는 똑똑한 선생님입니다."

이 기술 덕분에 앞으로 우리가 AI 에게 "바다 위에 떠 있는 초록색 비행기"라고 말하면, AI 는 바다와 비행기를 헷갈리지 않고 정확하게 그려줄 수 있게 됩니다.

유사한 논문