Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 연구의 배경: "명령만 내리면 그림을 그리는 AI"

지금까지의 AI 그림 생성기 (텍스트를 보고 그림을 그리는 모델) 는 아주 똑똑해 보였습니다. "빨간 사과가 있는 나무"라고 하면 사과와 나무를 그릴 수 있죠. 하지만 이 논문은 **"그게 진짜로 이해한 걸까, 아니면 그냥 외운 것일까?"**를 의심했습니다.

비유: 이 AI 들은 마치 완벽한 모방 화가와 같습니다. "빨간 사과"라고 하면 빨간색 원과 초록색 잎을 붙여놓을 수는 있지만, "사과를 쥐고 짜면 주스가 터져야 한다"는 물리 법칙이나 "사과가 썩으면 곰팡이가 핀다"는 상식까지는 제대로 이해하지 못합니다.

🔍 2. 새로운 시험지: "T2I-COREBENCH"

연구진은 기존 시험지들이 너무 쉬워서 AI 의 진짜 실력을 가늠할 수 없다고 판단했습니다. 그래서 **더 어렵고 복잡한 새로운 시험지 (T2I-COREBENCH)**를 만들었습니다. 이 시험지는 크게 두 가지 능력을 측정합니다.

① 구성 능력 (Composition): "그림을 그리는 손기술"

내용: "빨간 사과, 파란 그릇, 그릇 위에 사과가 있고, 사과 옆에 나비가 있다"처럼 여러 요소를 한 화면에 정확히 배치하는 능력입니다.
비유: 레고 블록 조립입니다. 블록 (사과, 그릇 등) 을 많이 쌓고, 색깔을 정확히 맞추고, 위치를 정확히 잡는 능력입니다.
결과: AI 들은 이 부분에서 꽤 잘합니다. 레고 블록을 잘 쌓는 '손기술'은 점점 좋아지고 있습니다.

② 추론 능력 (Reasoning): "그림을 그리는 두뇌"

내용: 글에 직접 쓰지 않았지만, 논리적으로 결론을 내려야 보이는 요소를 그리는 능력입니다.
- 예시: "도미노가 넘어지면 다음 도미노도 넘어진다" (인과 관계), "차가 네모난 바퀴를 달면 어떻게 생길까?" (가상 상황), "수술실에는 왜 스테인리스 테이블이 있을까?" (상식).
비유: 연극 대본을 읽는 배우입니다. 대본에 "배우가 화가 나 있다"라고만 써있으면, 배우는 화난 표정, 주먹을 쥔 손, 붉어진 얼굴 등 직접 쓰지 않은 디테일까지 연기해야 합니다.
결과: 여기서 AI 들은 완전히 막힙니다. "사과를 짜면 주스가 터진다"는 걸 알고 있으면서도, 그림에서는 그냥 사과만 그립니다.

📊 3. 주요 발견: "손은 잘 쓰는데, 머리는 아직 부족해"

연구진은 38 개의 최신 AI 모델을 시험지에 풀어보게 했습니다. 결과는 다음과 같습니다.

손기술은 늘었지만, 복잡한 상황엔 약해:
- AI 는 "사과 25 개, 나비 10 마리"처럼 요소가 많은 그림도 그릴 수 있게 되었습니다. 하지만 요소들이 서로 복잡하게 얽히면 (예: "사과 3 개는 빨간색이고, 2 개는 초록색이며, 빨간 사과 위에는 나비가 앉고...") 실수가 많아집니다.
추론 능력은 여전히 '병목' (Bottleneck):
- 가장 최신 모델조차도 논리적 추론이나 상식이 필요한 그림에서는 엉망이 됩니다.
- 비유: AI 는 "연극 대본 (명령문)"을 읽을 때, "배우가 화났다"는 말만 듣고는 "화난 표정"을 그리는 게 아니라, "화난 표정"이라는 단어만 찾아서 붙여놓습니다. 왜 화났는지, 어떤 결과가 나오는지 '생각'하지 못합니다.
명령을 다시 써주면 (Prompt Rewriting) 조금 나아지지만 한계가 있음:
- 연구진은 AI 가 이해하기 쉽도록 명령문을 사람이 다시 정리해 주면 (예: "사과를 짜서 주스가 튀는 모습으로 그려줘") 성능이 조금 좋아졌습니다.
- 하지만 이는 AI 가 스스로 생각해서 해결한 게 아니라, 사람이 대신 생각해서 알려준 것일 뿐입니다. AI 가 스스로 복잡한 상황을 이해하는 능력은 여전히 부족합니다.

💡 4. 결론: "무대 장치는 잘 하지만, 연극을 지휘하지는 못한다"

이 논문의 제목처럼, **"그림을 그리는 것 (Painting) 은 생각보다 쉽지만, 생각 (Thinking) 하는 것은 여전히 어렵다"**는 것입니다.

현재 상태: AI 는 무대 장치 (배경, 소품) 를 아주 잘 꾸미지만, 연극의 흐름을 이해하고 캐릭터의 행동을 자연스럽게 이어가는 '지휘자' 역할은 못 합니다.
미래의 과제: 앞으로 AI 가 발전하려면 단순히 더 많은 데이터를 학습하는 것을 넘어, 논리적으로 생각하고, 상식을 적용하며, 인과관계를 이해하는 '두뇌'를 갖춰야 합니다.

📝 한 줄 요약

"AI 는 복잡한 레고 (그림 요소) 를 잘 쌓지만, 그 레고들이 왜 그렇게 쌓여야 하는지 (논리와 상식) 는 아직 제대로 이해하지 못한다. 그래서 우리는 AI 에게 '손기술'은 늘었지만, '생각'은 여전히 부족한 상태라고 말할 수 있다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

텍스트-to-이미지 (T2I) 생성 모델은 최근 급속한 발전을 이루었으나, 기존 평가 벤치마크는 다음과 같은 한계를 가지고 있습니다.

포괄성 부족: 대부분의 벤치마크는 '구성 (Composition)' 또는 '추론 (Reasoning)' 중 하나만을 평가하거나, 평가 차원이 직관적 (heuristic) 인 경우가 많아 T2I 모델의 모든 핵심 능력을 체계적으로 측정하지 못합니다.
복잡성 부족: 기존 평가는 장면의 밀도가 낮거나 (소수의 객체), 단순한 1 대 1 추론 (예: 하나의 행동 $\rightarrow$ 하나의 결과) 에 국한되어 있습니다. 이는 실제 응용 환경에서 요구되는 고밀도의 구성 요소와 다단계 추론을 반영하지 못합니다.
평가의 한계: 명시적 요소뿐만 아니라 암시적 요소 (추론이 필요한 요소) 를 생성하는 능력을 정밀하게 평가할 수 있는 도구가 부족합니다.

2. 방법론 (Methodology)

이 논문은 T2I 모델의 구성 (Composition) 과 추론 (Reasoning) 능력을 종합적이고 복잡하게 평가하기 위한 새로운 벤치마크 T2I-COREBENCH 를 제안합니다.

가. 평가 분류 체계 (12 차원 Taxonomy)

기존의 단순한 평가를 넘어, 장면 그래프 (Scene Graph) 구조와 철학적 추론 프레임워크 (연역, 귀납, 귀추) 를 기반으로 12 가지 평가 차원을 정의했습니다.

구성 (Composition, 4 차원):
- MI (Multi-Instance): 단일 이미지 내 다수 객체 생성 (평균 ~25 개).
- MA (Multi-Attribute): 단일 객체에 다수 속성 결합 (평균 ~20 개).
- MR (Multi-Relation): 단일 장면 내 다수 관계 연결 (평균 ~15 개).
- TR (Text Rendering): 텍스트 내용 및 레이아웃의 정밀한 렌더링.
추론 (Reasoning, 8 차원):
- 연역적 추론 (Deductive):
  - LR (Logical): 전제 기반 논리 퍼즐 해결.
  - BR (Behavioral): 행동과 초기 상태로부터 필연적인 결과 추론 (예: 넘어지는 도미노).
  - HR (Hypothetical): 반사실적 가정 (Counterfactual) 적용 및 전파 (예: 모든 바퀴가 정사각형인 세상).
  - PR (Procedural): 순차적 절차에 따른 최종 장면 유도.
- 귀납적 추론 (Inductive):
  - GR (Generalization): 예시에서 규칙을 유도하여 새로운 상황에 적용.
  - AR (Analogical): 소스 도메인의 관계 규칙을 타겟 도메인으로 전이.
- 귀추적 추론 (Abductive):
  - CR (Commonsense): 명시되지 않은 상식적 요소를 추론하여 장면 완성.
  - RR (Reconstructive): 관찰된 단서로부터 가장 그럴듯한 초기 상태 재구성.

나. 벤치마크 구축 프로세스

데이터 생성: Large Reasoning Models (LRMs, 예: Claude Sonnet 4, Gemini 2.5 Pro, OpenAI o3) 를 활용하여 고밀도 프롬프트와 체크리스트를 생성했습니다.
프롬프트 설계: 각 차원별로 복잡성을 높이기 위해 객체 수를 늘리고, 1 대 다 (One-to-Many) 또는 다 대 1 (Many-to-One) 추론 구조를 도입했습니다.
세밀한 평가 (Checklist): 각 프롬프트에 대해 생성된 이미지의 모든 명시적/암시적 요소를 검증하는 독립적인 Yes/No 질문 (체크리스트) 을 매칭했습니다. 총 1,080 개의 프롬프트와 약 13,500 개의 질문으로 구성되었습니다.
평가 프로토콜: 생성된 이미지는 Gemini 2.5 Flash 와 같은 MLLM (Multimodal LLM) 을 사용하여 체크리스트 기반의 자동 평가 (Binary VQA) 를 수행합니다.

3. 주요 기여 (Key Contributions)

T2I-COREBENCH 제안: 구성과 추론 능력을 동시에 포괄하는 최초의 종합적이고 복잡한 벤치마크를 구축했습니다. (12 개 차원, 1,080 개 프롬프트).
정밀한 평가 메커니즘: 각 프롬프트에 인간이 검증한 Yes/No 체크리스트를 도입하여, 생성된 이미지가 명시적 요소와 암시적 추론 요소를 얼마나 정확하게 포함했는지 세밀하게 측정할 수 있게 했습니다.
광범위한 모델 평가 및 통찰: 38 개의 최신 T2I 모델 (Diffusion, Autoregressive, Unified 모델 포함) 에 대한 평가를 통해, 구성 능력은 꾸준히 향상되고 있으나 추론 능력이 여전히 주요 병목 현상임을 규명했습니다.

4. 실험 결과 (Results)

38 개 모델에 대한 평가 결과 (Gemini 2.5 Flash 기준) 는 다음과 같은 통찰을 제공합니다.

구성 능력의 점진적 향상: 오픈소스 모델 (예: FLUX.2-dev) 이 폐쇄형 모델에 근접하는 성능을 보이며, 복잡한 구성 (다수 객체, 속성, 관계) 에서도 점진적인 개선을 보이고 있습니다.
추론 능력의 심각한 부족:
- 최상위 모델 (Nano Banana Pro) 도 구성 점수 (89.7) 에 비해 추론 점수 (82.7) 가 낮으며, 특히 다단계 추론이 필요한 차원 (BR, HR, CR, RR) 에서 성능이 크게 저하됩니다.
- 오픈소스 모델의 경우 구성 점수 (83.7) 와 추론 점수 (51.7) 간의 격차가 32 점 이상 벌어져, 추론 능력이 T2I 발전의 핵심 병목임을 보여줍니다.
모델 아키텍처 비교:
- Diffusion 모델이 전반적으로 우세하지만, Unified 모델 (텍스트와 이미지를 통합적으로 처리) 이 추론 능력에서 더 나은 잠재력을 보입니다.
- 프롬프트 리라이팅 (Prompt Rewriting): LLM 을 이용해 프롬프트를 명시적으로 재작성하면 추론 성능이 일부 향상되지만 (약 20% 이상 개선), 이는 모델의 내재적 추론 능력을 보완할 뿐이며, 시각적 편향 (예: 바퀴의 원형 고착) 을 완전히 해결하지는 못합니다.

5. 의의 및 결론 (Significance)

현실적 복잡성 반영: T2I-COREBENCH 는 실제 응용 환경에서 요구되는 고밀도 구성과 다단계 추론을 평가할 수 있는 표준을 제시합니다.
연구 방향 제시: 현재 T2I 모델은 "무대를 설정 (Set the stage, 즉 구성)"하는 능력은 향상되었으나, "연극을 지휘 (Direct the play, 즉 추론)"하는 능력은 여전히 미흡합니다.
미래 과제: 추론 능력을 극복하기 위해서는 LLM 기반의 추론 파이프라인 통합, 체인 오브 씽킹 (Chain-of-Thought) 기법의 적용, 그리고 생성 과정 중 시각적 추론 메커니즘의 도입이 필수적임을 강조합니다.

이 논문은 T2I 모델이 단순한 이미지 생성을 넘어, 복잡한 논리와 추론을 수행할 수 있는 지능형 에이전트로 발전하기 위해 해결해야 할 과제를 명확히 제시합니다.