InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

이 논문은 복잡한 다중 개체 장면에서 정밀한 이미지 편집을 위해 텍스트 기반 공간 추론과 시각적 그라운딩을 교차적으로 수행하는 'InterCoG' 프레임워크와 관련 데이터셋을 제안하여, 기존 모델이 해결하지 못했던 정밀한 위치 기반 편집 문제를 성공적으로 해결함을 보여줍니다.

Yecong Wan, Fan Li, Chunwei Wang, Hao Wu, Mingwen Shao, Wangmeng Zuo

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

InterCoG: 복잡한 사진 속 '정확한 대상'을 찾아주는 똑똑한 편집 비서

이 논문은 **"InterCoG"**라는 새로운 인공지능 기술을 소개합니다. 이 기술은 복잡한 사진 속에서 사용자가 원하는 특정 대상만 정확히 찾아내어 편집하는 데 특화되어 있습니다.

기존의 사진 편집 AI 는 "저기 있는 사람 옷 색깔 바꿔줘"라고 하면, "어느 사람?"이라고 헷갈려하거나, 엉뚱한 사람의 옷을 바꿔버리는 경우가 많았습니다. InterCoG 는 이런 실수를 없애기 위해 **생각하는 과정 (추론)**과 **눈으로 확인하는 과정 (시각적 근거)**을 번갈아 가며 수행합니다.

이 과정을 쉽게 이해할 수 있도록 3 가지 비유로 설명해 드리겠습니다.


1. 비유: "수백 명의 군중 속에서 친구 찾기"

상상해 보세요. 스타디움에 수천 명의 관중이 모여 있습니다. 당신은 친구에게 전화를 걸어 **"왼쪽에서 세 번째 줄, 빨간 모자를 쓴 친구 옷을 초록색으로 바꿔줘"**라고 요청합니다.

  • 기존 AI 의 실수: AI 는 "빨간 모자?"라고 생각하다가, 빨간 모자를 쓴 다른 사람 10 명을 동시에 찾거나, 아예 엉뚱한 사람을 찾아 옷을 바꿔버립니다.
  • InterCoG 의 방식: InterCoG 는 다음과 같이 단계별로 생각합니다.
    1. 말로 생각하기 (텍스트 추론): "아, 왼쪽에서 세 번째 줄이야. 그리고 빨간 모자를 썼지. 그 친구는 두 아이 사이에 서 있겠구나."라고 말로 먼저 위치를 파악합니다.
    2. 눈으로 확인하기 (시각적 근거): "오케이, 이제 그 말로 생각한 위치를 이미지에서 찾아보자."라고 하며, 실제로 그 친구 주위에 빨간 네모 박스투명한 마스크를 그려서 "이게 바로 그 친구야!"라고 표시합니다.
    3. 편집 실행: "자, 이제 이 표시된 친구의 옷만 초록색으로 바꾸자."라고 명령을 내립니다.

이처럼 말로 생각한 내용눈으로 확인한 내용을 번갈아 가며 (Interleaved) 검증하기 때문에, 엉뚱한 사람을 건드리지 않고 정확히 원하는 사람만 편집할 수 있습니다.

2. 비유: "건축 도면과 현장의 대조"

사진 편집은 마치 건축 도면을 보고 건물을 고치는 것과 같습니다.

  • 기존 방식: "저기 있는 창문 색깔 바꿔줘"라고 하면, AI 는 도면 없이 눈으로만 대충 보고 "아, 저기 창문 있네?"라고 추측합니다. 그래서 창문 옆의 벽까지 같이 칠해버리거나, 2 층 창문 대신 1 층 창문을 고칩니다.
  • InterCoG 방식:
    1. 설계도 작성 (텍스트): "2 층, 왼쪽에서 두 번째 창문. 그 창문은 붉은색 벽과 인접해 있어."라고 상세한 설명을 먼저 작성합니다.
    2. 현장 표시 (시각): "설계대로 현장에 가보자."라며 해당 창문에 형광 테이프를 감습니다.
    3. 시공: "자, 테이프가 감긴 창문만 파란색으로 칠하자."

이렇게 **설계 (생각)**와 **현장 (이미지)**을 계속 대조하며 작업하므로, 실수가 거의 없습니다.

3. 비유: "수업 시간에 선생님이 칠판에 표시하는 것"

수학 문제를 풀 때, 선생님이 칠판에 문제를 읽고 **"자, 이 부분 (X) 을 먼저 계산하고, 그 다음에 이 부분 (Y) 을 확인하자"**라고 칠판에 표시하며 설명하는 모습을 떠올려 보세요.

  • InterCoG 는 AI 가 스스로 칠판에 **생각의 흔적 (Chain-of-Grounding)**을 남깁니다.
    • "이게 누구지? (텍스트로 설명)" → "아, 저기 있네! (이미지에 박스 표시)" → "자, 이제 이 부분만 고치자."
  • 이 과정을 통해 AI 는 **"무엇을 고칠지 (What)"**와 **"어디를 고칠지 (Where)"**를 동시에 정확히 이해하게 됩니다.

이 기술이 왜 중요한가요?

이 논문에서는 GroundEdit-45K라는 새로운 데이터셋도 만들었습니다. 이는 AI 가 복잡한 상황에서도 정확한 위치를 찾아내도록 훈련시키기 위해, 4 만 5 천 개의 사진에 "누가, 어디에, 어떤 특징을 가지고 있는지"를 상세히 설명한 자료입니다.

결론적으로 InterCoG 는:

"사진을 편집할 때, AI 가 단순히 '대충' guessed(추측) 하는 것이 아니라, 논리적으로 생각하고 눈으로 확인하며 정확하게 작업하는 비서를 만든 것"입니다.

이 기술 덕분에 앞으로는 "가운데 서 있는 사람 옷 바꿔줘"라고 말해도, AI 가 그 사람과 옆에 있는 사람을 구분해서 정확히 옷만 바꿔주는 날이 머지않았습니다.