Each language version is independently generated for its own context, not a direct translation.
이 논문은 **"사진을 편집할 때, 사람이 원하는 대로 잘 바꿨는지 판단해 주는 똑똑한 심사위원 (EDITREWARD)"**을 개발한 연구입니다.
마치 요리 대회를 상상해 보세요.
요리사 (AI 모델) 들이 "소금기 좀 덜어줘"라는 지시사항을 듣고 요리를 만들어냅니다. 그런데 심판이 "이건 너무 짜다", "저건 맛은 좋은데 모양이 엉망이다"라고 말해주지 않으면, 요리사들은 어떻게 해야 좋은 요리를 만들지 알 수 없습니다.
지금까지 오픈소스 AI 모델들은 이 '심판'이 부실해서, 비싼 유료 모델들 (GPT-4o 등) 에 비해 요리를 잘 못 했습니다. 이 논문은 그 문제를 해결하기 위해 인간 전문가들이 직접 20 만 개 이상의 사진을 꼼꼼히 심사한 데이터와, 그 데이터를 배운 새로운 AI 심사위원을 만들었습니다.
주요 내용을 요리와 관련된 비유로 쉽게 설명해 드릴게요.
1. 문제: "맛없는" 자동 심판들
기존의 AI 심판들은 두 가지 큰 문제가 있었습니다.
- 눈만 보는 심판: "이 사진이 예쁜가?"만 보고 "맛 (지시사항 준수)"은 무시했습니다. (예: "소금기 줄여줘"라고 했는데, 소금기를 줄이는 대신 사진을 흐리게 만들면 '예쁘다'고 점수를 줌)
- 인간과 다른 취향: 기계가 계산한 점수와 사람이 "아, 이건 아니네"라고 느끼는 마음이 많이 달랐습니다.
2. 해결책: "프로 미식가"들이 만든 데이터 (EDITREWARD-DATA)
연구팀은 20 만 개가 넘는 사진 편집 예시를 준비했습니다.
- 정직한 심판단: 일반인이 아니라, 훈련받은 전문가들이 "지시사항을 얼마나 잘 따랐는지 (Instruction Following)"와 "사진이 자연스러운지 (Visual Quality)" 두 가지 기준으로 1 점부터 4 점까지 꼼꼼히 매겼습니다.
- 다양한 요리: 7 가지 최신 AI 모델들이 만든 다양한 결과물을 비교하며, 어떤 것이 진짜 좋은지 데이터로 쌓아 올렸습니다.
3. 핵심 기술: "혼란스러운 심리"를 이해하는 AI (EDITREWARD)
이 새로운 AI 심사위원은 단순히 점수만 매기는 게 아니라, 인간의 복잡한 심리까지 이해합니다.
- 불확실성 인정: "이건 조금 애매하네"라고 느낄 때, AI 는 "100% 확실한 점수"를 주는 게 아니라 "이런 점수일 확률이 높고, 저런 점수일 확률도 있다"는 식으로 유연하게 판단합니다.
- 두 가지 눈: "지시사항 준수"와 "화면의 아름다움"을 따로따로 평가했다가 합칩니다. (예: 지시사항은 완벽하지만 사진이 어색하면, 전체 점수를 낮게 줌)
- 동점자 해법: 두 사진이 비슷해서 동점인 경우, "A 는 지시사항이 좋았고 B 는 화질이 좋았다"는 식으로 세부적인 장점을 찾아내어 더 정교하게 학습시킵니다.
4. 성과: "최고의 요리사"로 거듭나다
이 새로운 심사위원 (EDITREWARD) 을 이용해 기존에 잡음이 많았던 데이터 (ShareGPT-4o-Image) 에서 가장 좋은 2 만 개만 골라내어 새로운 AI 모델 (Step1X-Edit) 을 훈련시켰습니다.
- 결과: 잡음 많은 전체 데이터를 다 쓴 것보다, **질 좋은 데이터만 골라 쓴 것이 훨씬 더 맛있는 요리 (더 좋은 편집 결과)**를 만들어냈습니다.
- 비유: "100 그릇의 실패한 요리와 20 그릇의 완벽한 요리를 비교했을 때, 20 그릇의 완벽한 요리만 배우는 것이 요리사 실력을 훨씬 빠르게 올려줍니다."
5. 결론
이 연구는 **"오픈소스 AI 가 유료 AI 를 따라잡기 위해서는, 인간이 직접 꼼꼼히 심사한 '고품질 데이터'와 이를 잘 판단하는 '똑똑한 심사위원'이 필요하다"**는 것을 증명했습니다.
이제 이 기술과 데이터는 모두에게 공개되어, 앞으로 더 많은 사람들이 무료로 고품질의 사진 편집 AI 를 만들 수 있게 되었습니다. 마치 최고의 레시피와 심사 기준을 공개해서, 누구나 명 요리사가 될 수 있게 도와주는 것과 같습니다.