Order Is Not Layout: Order-to-Space Bias in Image Generation

본 논문은 텍스트 내 개체 언급 순서가 이미지 생성 모델의 공간 배치에 과도하게 영향을 미치는 '순서 - 공간 편향 (OTS)' 현상을 규명하고, 이를 측정하는 벤치마크를 제안하며 데이터 기반의 원인을 분석하여 생성 품질을 유지하면서 편향을 완화하는 해결책을 제시합니다.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang, Fei Ding, Pei Li, Wenxuan Wang

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 제목: "순서가 곧 위치는 아니다: AI 의 공간 착각"

1. AI 가 겪는 '가장자리 착각' (OTS)

우리가 AI 에게 "고양이와 개가 있어요"라고 말하면, AI 는 그림을 그릴 때 고양이를 왼쪽에, 개를 오른쪽에 그리는 경향이 매우 강합니다.

  • 비유: 마치 식당에서 손님이 "김치찌개와 된장찌개를 주세요"라고 주문하면, 주방장이 김치찌개를 무조건 왼쪽 접시, 된장찌개를 오른쪽 접시에 담는 것과 같습니다.
  • 문제점: AI 는 "왼쪽에는 고양이, 오른쪽에는 개"라고 명시적으로 말하지 않아도, 문장에서 먼저 언급된 것 = 왼쪽, 두 번째 언급된 것 = 오른쪽이라고 착각합니다. 이를 논문에서는 **'순서 - 공간 편향 (Order-to-Space Bias)'**이라고 부릅니다.

2. 왜 이게 문제일까요? (실수 사례)

이런 착각은 단순한 배치가 아니라, 사실과 다른 엉뚱한 그림을 만들어냅니다.

  • 시계 예시: 시계에서 '3 시'는 오른쪽, '9 시'는 왼쪽에 있어야 합니다. 하지만 AI 에게 "9 시와 3 시"라고 말하면, AI 는 문장 순서대로 9 시를 왼쪽, 3 시를 오른쪽에 그려버립니다. 시계가 거꾸로 된 꼴이죠.
  • 역할 뒤바뀜: "선생님이 학생을 가리키고 있다"라고 했을 때, AI 는 문장 순서대로 왼쪽에 있는 사람 (학생) 을 선생님으로, 오른쪽에 있는 사람 (선생님) 을 학생으로 착각해 행동을 부여합니다.

3. 왜 이런 일이 생길까요? (데이터의 습관)

연구진은 이 문제가 AI 의 머리가 나빠서가 아니라, 배운 데이터의 습관 때문이라고 밝혀냈습니다.

  • 비유: 인터넷에 올라온 수억 장의 사진과 설명을 공부했는데, 대부분의 설명이 "왼쪽에 있는 A 와 오른쪽에 있는 B"라는 식으로 A 를 먼저 쓰고 B 를 나중에 썼기 때문입니다.
  • AI 는 "아, 사람들이 무언가를 설명할 때 왼쪽부터 오른쪽으로 이야기하는구나!"라고 착각하고, 문장 순서 = 공간 배치라는 잘못된 공식을 만들어버린 것입니다.

4. 어떻게 고쳤을까요? (해결책)

연구진은 이 버그를 잡기 위해 두 가지 방법을 시도했습니다.

  1. 거울로 반전시키기 (데이터 교정): "고양이와 개"라는 설명을 가진 그림을 AI 에게 보여줄 때, 고양이가 오른쪽에 있는 그림도 함께 보여주며 "아니야, 고양이는 오른쪽일 수도 있어!"라고 가르쳤습니다. 이렇게 하면 AI 는 순서만 보고 왼쪽으로 고정하지 않게 됩니다.
  2. 생성 순서 조절하기 (시간 조절): AI 가 그림을 그릴 때, 처음에는 "사람 두 명이 있어요"처럼 순서 없는 설명으로 대략적인 구도를 잡고, 나중에 "고양이와 개"처럼 구체적인 순서를 알려주는 방식을 썼습니다. 이렇게 하면 AI 는 구도를 잡을 때 순서에 휘둘리지 않게 됩니다.

5. 결론

이 연구는 **"AI 가 문장을 읽는 순서가 그림의 공간 배치를 결정하지 않는다"**는 사실을 증명했습니다.

우리가 AI 에게 그림을 그릴 때, 단순히 "A 와 B"라고만 말하면 AI 는 순서대로 배치해버릴 수 있으니, **"왼쪽에 A, 오른쪽에 B"**처럼 구체적인 위치를 명시해 주어야 더 정확한 그림을 얻을 수 있다는 교훈을 줍니다.


한 줄 요약:

"AI 는 우리가 말한 순서를 보고 왼쪽/오른쪽을 자동으로 결정하는 버그가 있는데, 이는 AI 가 인터넷 데이터를 공부하며 생긴 나쁜 습관 때문이며, 이를 고치면 더 똑똑한 그림을 그릴 수 있다."