BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

이 논문은 기존 텍스트 기반 생성 모델의 한계를 극복하고, 구조화된 텍스트 프레임워크 내에서 객체의 위치와 크기를 나타내는 숫자 바운딩 박스 및 RGB 색상 값을 직접 조건으로 활용하여 정밀한 공간 및 색상 제어가 가능한 대규모 텍스트 - 이미지 모델 'BBQ'를 제안합니다.

Eliran Kachlon, Alexander Visheratin, Nimrod Sarid, Tal Hacham, Eyal Gutflaish, Saar Huberman, Hezi Zisman, David Ruppin, Ron Mokady

게시일 2026-02-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 BBQ: 그림을 그리는 '정밀한 요리사'

이 논문은 **"BBQ"**라는 새로운 인공지능 모델을 소개합니다. 이름에서 알 수 있듯이, 이 모델은 그림을 그릴 때 마치 **바베큐 (BBQ)**를 굽듯이 정확한 위치와 색상을 조절할 수 있게 해줍니다.

기존의 그림 생성 AI 는 "오른쪽 구석에 빨간색 사과를 그려줘"라고 말하면 대략적으로 그려주지만, BBQ 는 **"오른쪽 구석의 (x, y) 좌표에, 빨간색 (RGB: 255, 0, 0) 사과를 그려줘"**라고 하면 정확히 그 위치에, 그 색으로 그려줍니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 기존 AI vs. BBQ: "감성적인 지시" vs. "정밀한 설계도"

  • 기존 AI (감성적인 지시):
    Imagine you are asking a painter: "Draw a dog in the corner."
    화가에게 "구석에 개를 그려줘"라고 하면, 화가는 '어느 구석?', '얼마나 큰 개?', '어떤 색의 개?'를 스스로 추측해서 그립니다. 결과는 좋지만, 원하는 대로 딱 떨어지지 않을 수 있습니다.

  • BBQ (정밀한 설계도):
    BBQ 는 화가에게 **"구석 (좌표: 0.1, 0.1) 에, 크기 5cm, 붉은색 (RGB: 255, 0, 0) 개를 그려줘"**라고 숫자로 된 설계도를 줍니다.
    화가는 더 이상 추측할 필요가 없습니다. 숫자대로 정확히 그립니다.

2. BBQ 의 핵심 기술: "숫자를 읽는 마법"

이 모델의 가장 놀라운 점은 아무런 구조 변경 없이 숫자를 이해한다는 것입니다.

  • 비유: 레시피의 변화
    기존 AI 는 "맛있는 스테이크"라는 문장만 보고 그렸습니다.
    BBQ 는 "스테이크, 위치 (중앙), 크기 (큰 것), 색상 (갈색)"이라는 숫자가 섞인 레시피를 읽습니다.
    연구자들은 AI 가 숫자를 이해하도록 훈련시키기 위해, 그림 설명에 **위치 좌표 (상자 크기)**와 **색상 코드 (RGB)**를 숫자로 직접 적어 넣은 데이터를 대량으로 학습시켰습니다.

3. BBQ 의 놀라운 능력: "조절 가능한 그림"

BBQ 가 가장 잘하는 것은 그림을 수정하는 것입니다.

  • 비유: 레고 장난감
    기존 AI 로 만든 그림을 수정하려면 "개 좀 오른쪽으로 옮겨줘"라고 다시 말해야 하고, AI 는 개를 옮기면서 배경까지 다 뭉개버릴 수 있습니다.
    하지만 BBQ 는 레고처럼 작동합니다.
    • "개 위치를 (10, 10) 에서 (20, 20) 으로 바꿔줘"라고 숫자만 바꾸면, 개만 정확히 이동하고 배경이나 다른 사물은 그대로 유지됩니다.
    • "개 옷 색을 (255, 0, 0) 에서 (0, 0, 255) 로 바꿔줘"라고 하면, 옷만 파란색으로 변합니다.

이것을 **해리 (Disentanglement)**라고 하는데, 한 부분을 건드려도 다른 부분은 영향을 받지 않는다는 뜻입니다. 마치 레고 블록 하나만 빼고 다른 블록은 그대로 두는 것과 같습니다.

4. 실제 사용법: "사람은 말하고, AI 가 숫자로 번역"

사람이 직접 "x 좌표 34.5, y 좌표 12.1"이라고 입력하는 건 너무 어렵습니다. 그래서 BBQ 는 **통역사 (VLM)**를 함께 사용합니다.

  1. 사용자: "오른쪽 구석에 노란색 공을 그려줘." (자연어)
  2. 통역사 AI: "오른쪽 구석" → (0.8, 0.8), "노란색" → (255, 255, 0)으로 숫자 코드로 번역.
  3. BBQ: 번역된 숫자 코드를 받아 정확한 그림을 생성.

이 과정 덕분에 일반 사용자도 복잡한 숫자 없이, 직관적인 드래그 (이동) 나 색상 선택기 (Color Picker) 로 그림을 완벽하게 제어할 수 있습니다.

5. 요약: 왜 BBQ 가 중요한가요?

  • 전문가용 도구: 디자이너나 아티스트는 "대략적으로"가 아니라 "정확하게"를 원합니다. BBQ 는 그 요구를 들어줍니다.
  • 간단한 기술: 복잡한 새로운 구조를 만들지 않고, 기존 AI 에 '숫자 레시피'만 더해서 만들었습니다.
  • 미래: 앞으로 그림을 그리는 것이 '말하기'에서 '프로그래밍'처럼 변할 수 있습니다. "여기에 이 물건을 이 색으로 배치해"라고 숫자로 지시하면, AI 가 그대로 실행하는 시대가 온 것입니다.

한 줄 요약:
BBQ 는 그림을 그릴 때 "감"에 의존하지 않고, 숫자 (위치와 색상) 로 정밀하게 제어할 수 있게 해주는, 레고처럼 조립하고 수정하기 쉬운 새로운 AI입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →