Each language version is independently generated for its own context, not a direct translation.

🎨 MIRA: 그림을 고치는 '똑똑한 예술 감독'

이 논문은 MIRA(Multimodal Iterative Reasoning Agent) 라는 새로운 기술을 소개합니다. 쉽게 말해, **"사람이 말로 지시하면 그림을 고쳐주는 AI 가, 한 번에 끝내려 하지 않고 천천히 생각하며 수정하는 과정"**을 개발한 것입니다.

기존의 AI 는 "이 고양이에게 선글라스를 씌워줘"라고 하면 한 번에 그리는 데, MIRA 는 그림을 보고 "아, 고양이 눈이 가려졌네? 다시 고쳐야겠다"라고 스스로 판단하며 수정합니다.

1. 왜 이 기술이 필요한가요? (기존의 문제점)

기존의 그림 생성 AI 는 마치 **"한 번에 모든 것을 기억해야 하는 초보 요리사"**와 같습니다.

상황: 손님이 "고양이에게 선글라스를 씌우고, 배경은 해변으로 바꾸고, 고양이는 웃게 그려줘"라고 복잡한 주문을 합니다.
기존 AI 의 반응: "네! 알겠습니다!"라고 대답하며 한 번에 그립니다. 하지만 결과는 엉망이 될 수 있습니다. 고양이가 웃지 않거나, 선글라스가 눈 위에 안 걸리거나, 배경이 고양이와 섞여버립니다.
원인: AI 는 복잡한 지시를 한 번에 처리하려다 보니, 세부적인 부분 ( compositional relationships) 을 놓치거나 의도와 다른 방향으로 흐르는 (drift) 경우가 많습니다.

2. MIRA 는 어떻게 해결하나요? (해결책)

MIRA 는 **"수천 번의 경험을 가진 숙련된 예술 감독"**이나 **"현명한 편집자"**와 같습니다.

🔄 "보고, 생각하며, 고치는" 반복 과정 (Iterative Loop)

MIRA 는 그림을 한 번에 끝내지 않습니다. 대신 다음과 같은 3 단계 루프를 반복합니다.

관찰 (Perception): 현재 그림을 봅니다. (예: "아, 고양이는 웃고 있지만 선글라스가 코에 걸렸네.")
추론 (Reasoning): 사용자의 지시와 현재 그림을 비교합니다. (예: "사용자는 '선글라스를 씌워라'고 했으니, 코가 아니라 눈 위에 있어야 해. 그리고 배경은 아직 해변이 아니야.")
행동 (Action): 가장 작은 단위의 수정 명령을 내립니다. (예: "일단 선글라스 위치만 고쳐줘.")

이 과정을 그림이 완전히 지시대로 될 때까지 반복합니다. 마치 사진을 보정할 때 '되돌리기 (Undo)'와 '다시 시도 (Redo)'를 반복하며 완벽하게 맞추는 것과 같습니다.

3. MIRA 의 핵심 특징

🧩 "조각조각" 나누어 생각하기 (Atomic Steps)

복잡한 지시를 한 번에 처리하지 않고, **"작은 조각 (Atomic)"**으로 나눕니다.

비유: "집을 지어줘"라고 하면, 한 번에 다 짓는 게 아니라 "기초를 깔고", "벽을 세우고", "지붕을 올리는" 순서로 하나씩 완성합니다. MIRA 는 그림도 이렇게 하나씩 고쳐가며 실수를 줄입니다.

🛠️ "열린 도구함" (Plug-and-Play)

MIRA 는 그림 그리는 능력 자체를 새로 배우는 게 아니라, 이미 잘 그리는 다른 AI(예: Flux, Qwen 등) 를 조종하는 역할을 합니다.

비유: MIRA 는 명령을 내리는 지휘자이고, 실제 그림을 그리는 AI 는 오케스트라 단원입니다. 지휘자가 지시를 잘하면, 어떤 악기 (AI) 를 쓰든 훌륭한 연주가 나옵니다.

📚 "15 만 개의 연습 문제" (MIRA-EDITING Dataset)

이 AI 를 가르치기 위해 연구진은 15 만 개의 '복잡한 지시 - 수정 과정' 데이터를 직접 만들었습니다.

비유: 마치 요리 학교에서 "초보 요리사들이 자주 하는 실수"와 "그걸 어떻게 고쳐야 맛있는 요리가 되는지"를 15 만 가지 사례로 가르친 것과 같습니다.

4. 왜 이 기술이 특별한가요? (결과)

상위권 AI 와 경쟁: 비싼 유료 AI(예: GPT-Image) 와 맞먹거나 더 좋은 결과를 냅니다.
오픈소스 AI 의 능력 향상: 무료로 쓸 수 있는 AI 들도 MIRA 를 붙이면 훨씬 똑똑해집니다.
실수 수정 능력: 중간에 그림이 엉망이 되어도, MIRA 는 "아, 여기서 실수했네"라고 알아채고 다음 단계에서 고쳐줍니다. (기존 AI 는 실수가 쌓여 끝까지 엉망이 되지만, MIRA 는 실시간으로 수정합니다.)

5. 요약: 한 줄로 정리하면?

"MIRA 는 그림을 그릴 때 '한 번에 끝내려' 하지 않고, '보고, 생각하며, 고쳐가며' 완벽하게 만드는 똑똑한 AI 편집자입니다."

이 기술은 앞으로 우리가 AI 에게 그림을 부탁할 때, "이게 아니야, 다시 해"라고 말하지 않아도 AI 가 스스로 완벽하게 맞춰줄 수 있는 시대를 열 것입니다.

Each language version is independently generated for its own context, not a direct translation.

MIRA: 멀티모달 반복적 추론 에이전트를 활용한 이미지 편집

1. 문제 정의 (Problem)

지시 기반 이미지 편집 (Instruction-guided image editing) 은 사용자가 자연어로 이미지를 수정할 수 있게 하여 직관적인 인터페이스를 제공합니다. 그러나 기존 확산 기반 (diffusion-based) 편집 모델들은 다음과 같은 한계를 겪고 있습니다:

복잡한 지시 해석의 어려움: 구성적 관계 (compositional relationships), 문맥적 단서 (contextual cues), 지시 표현 (referring expressions) 이 포함된 복잡한 명령을 정확하게 이해하지 못합니다.
의미적 이탈 (Semantic Drift): 사용자의 의도와 실제 편집 결과 사이의 괴리가 발생하여, 의도한 변경 사항이 반영되지 않거나 의미적으로 엉뚱한 결과가 나옵니다.
정적 계획의 한계: 기존 시스템은 주로 단일 프롬프트 실행이나 정적 계획에 의존하여, 편집 과정에서 발생하는 오차를 실시간으로 수정하거나 적응하지 못합니다.
오픈소스 vs. 독점 시스템 격차: Seedream 4.0, GPT-Image, Nano-Banana 와 같은 독점 시스템은 상대적으로 성능이 우수하지만, 오픈소스 모델들은 복잡한 작업에서 여전히 미묘한 일관성과 제어력을 유지하는 데 어려움을 겪습니다.

2. 방법론 (Methodology)

저자들은 이러한 문제를 해결하기 위해 MIRA (Multimodal Iterative Reasoning Agent) 를 제안합니다. MIRA 는 단일 프롬프트 실행이 아닌, 반복적인 지각 - 추론 - 행동 (Perception-Reasoning-Action) 루프를 통해 이미지를 편집하는 경량 플러그 앤 플레이 (plug-and-play) 멀티모달 에이전트입니다.

작동 원리:
1. 상태 입력: 원본 이미지 ( $I_0$ ), 사용자 지시 ( $C$ ), 현재 중간 편집 결과 ( $I_{t-1}$ ) 를 입력받습니다.
2. 반복적 추론: 비전 - 언어 모델 (VLM, Qwen2.5-VL 기반) 이 현재 시각적 상태와 지시 간의 차이를 분석합니다.
3. 원자적 행동 예측: 전체 작업을 한 번에 수행하는 대신, 다음 단계에서 수행할 원자적 편집 지시 (atomic edit instruction) 하나를 예측하거나 종료 (Stop) 를 결정합니다.
4. 실행 및 피드백: 예측된 지시는 외부 이미지 편집 모델 (Flux.1-Kontext, Step1X-Edit 등) 에 의해 실행되며, 그 결과물이 다시 에이전트에게 피드백되어 다음 단계를 결정합니다.
5. 종료: 지시가 완전히 충족될 때까지 이 루프가 반복됩니다.
데이터셋 (MIRA-EDITING):
- 15 만 개의 고품질 쌍 (이미지 - 편집 지시) 으로 구성된 대규모 멀티모달 도구 사용 데이터셋입니다.
- SeedEdit 의 다중 턴 편집 시퀀스를 단일 복잡한 지시로 집계하고, 의미적 일관성을 기준으로 랭킹 필터링을 거쳐 구성되었습니다.
- 학습을 위해 Type 1 (시작), Type 2 (계속), Type 3 (종료) 세 가지 유형의 단계별 감독 데이터를 제공합니다.
학습 파이프라인 (Two-Stage Training):
1. SFT (Supervised Fine-Tuning): 고품질 데이터셋을 통해 Qwen2.5-VL 모델을 미세 조정하여 기본 편집 지시 생성 능력을 학습시킵니다.
2. GRPO (Group Relative Policy Optimization): 강화 학습 단계를 거칩니다. 외부 편집 모델과 편집 평가 모델 (Reward Model) 을 결합한 복합 보상 함수를 사용하여, 의미적 일관성과 지각적 품질을 동시에 최적화합니다.

3. 주요 기여 (Key Contributions)

경량 플러그 앤 플레이 에이전트: 기존 오픈소스 이미지 편집 백본과 원활하게 결합하여 복잡한 편집 지시를 처리할 수 있는 MIRA 를 제안했습니다. 이는 오픈소스와 독점 시스템 간의 성능 격차를 크게 줄였습니다.
대규모 학습 데이터셋 (MIRA-EDITING): 다단계 추론 감독, 복잡한 지시 정렬, 고품질 편집 궤적을 위한 15 만 개의 맞춤형 데이터셋을 구축했습니다.
SFT + GRPO 기반의 두 단계 학습 파이프라인: 이미지 편집 백본과 보상 모델을 결합한 새로운 복합 보상 모델을 도입하여, GRPO 를 통해 의미적으로 grounding 된 최적화 신호를 제공합니다.

4. 실험 결과 (Results)

성능 향상: MIRA 를 적용한 오픈소스 모델 (Flux.1-Kontext, Qwen-Image-Edit 등) 은 GPT-Image, Nano-Banana 와 같은 독점 시스템을 능가하거나 동등한 성능을 달성했습니다.
- 예: Flux.1-Kontext + MIRA 는 GPT-SC(의미 일관성) 에서 4.98%, EditScore-SC 에서 13.41% 향상되었습니다.
지각적 품질 개선: 반복적인 추론을 통해 할루시네이션과 아티팩트 축적을 줄여, 더 깨끗하고 시각적으로 일관된 결과를 생성했습니다.
VLM 비교: MIRA 7B 는 Qwen3-VL 시리즈나 GPT-5 와 같은 다른 대형 VLM 을 플러그 앤 플레이 방식으로 적용했을 때보다 의미 일관성과 지각적 품질의 균형이 더 뛰어났습니다. 이는 MIRA 의 구조화된 반복적 추론이 일반 추론 능력보다 이미지 편집에 더 효과적임을 시사합니다.
오류 수정 능력: MIRA 는 중간 단계에서 편집 모델이 실수를 하더라도 (예: 잘못된 색상 변경), 이를 감지하고 다음 단계에서 수정 명령을 내리는 오류 완화 (Error Mitigation) 능력을 보여줍니다.

5. 의의 및 결론 (Significance)

패러다임 전환: 이미지 편집을 일회성 프롬프트 실행이 아닌, 반복적인 지각 - 추론 - 행동 에이전트 루프로 재정의했습니다.
오픈소스 생태계 강화: 복잡한 편집 작업에서도 독점 시스템과 경쟁할 수 있는 수준의 성능을 오픈소스 모델에 부여하여, 접근성과 확장성을 높였습니다.
효율성과 해석 가능성: 복잡한 작업을 작은 원자적 단계로 분해하고 시각적 피드백을 기반으로 적응하므로, 편집 과정의 투명성과 제어력이 향상되었습니다.
실용성: 추가적인 지연 시간 (Latency) 이 발생하지만 (약 48 초), 오픈소스 기반이며 독점 시스템 대비 비용 효율적이고 성능이 우수하여 실용적인 대안으로 평가됩니다.

이 논문은 멀티모달 추론 에이전트가 이미지 편집의 정밀도와 제어력을 획기적으로 개선할 수 있음을 입증하며, 향후 지시 기반 생성 모델의 중요한 방향성을 제시합니다.

MIRA: Multimodal Iterative Reasoning Agent for Image Editing