FireRed-Image-Edit-1.0 Technical Report

이 논문은 16 억 개의 대규모 데이터셋과 정교한 학습 전략을 통해 지시 기반 이미지 편집에서 최첨단 성능을 달성하고, 새로운 벤치마크인 REDEdit-Bench 를 포함한 광범위한 평가에서 기존 시스템들을 능가하는 'FireRed-Image-Edit'모델을 제안합니다.

Super Intelligence Team, Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo

게시일 2026-02-23
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🔥 파이어레드 이미지 편집 (FireRed-Image-Edit): 그림을 마법처럼 바꾸는 새로운 기술

이 논문은 알리바바 (샤오홍슈) 의 '슈퍼 인텔리전스 팀'이 개발한 **'FireRed-Image-Edit'**이라는 새로운 인공지능에 대한 보고서입니다. 이 기술은 단순히 그림을 그리는 것을 넘어, **"이 그림을 이렇게 바꿔줘"**라는 사용자의 말 (지시) 을 듣고 사진을 정확하게 편집해 주는 역할을 합니다.

이 복잡한 기술 내용을 일반인이 이해하기 쉽게 요리사레시피에 비유해서 설명해 드릴게요.


1. 이 기술은 무엇인가요? (요리사의 등장)

기존의 AI 그림 그리기 기술은 "맛있는 파스타"라고 하면 파스타를 만들어주는 초보 요리사였습니다. 하지만 이 새로운 'FireRed'는 **"파스타 소스를 토마토에서 크림으로 바꾸고, 파슬리 대신 바질을 얹어줘"**라고 말하면, 그 말대로 정교하게 수정해 주는 마스터 셰프입니다.

기존의 유명한 AI 들은 너무 비싸거나 (유료), 너무 무겁거나 (컴퓨터 사양이 좋아야 함), 설명을 잘 못 알아듣는 경우가 많았는데, 이 기술은 가볍고 똑똑하며, 지시를 정확히 따릅니다.

2. 어떻게 배웠을까요? (엄청난 레시피 책)

이 요리사가 마스터가 되기 위해 엄청난 양의 **'레시피 책 (데이터)'**을 공부했습니다.

  • 16 억 개의 레시피: 처음에는 인터넷에서 찾은 16 억 개의 그림과 설명을 모았습니다. (이중 9 억 개는 그림을 그리는 것, 7 억 개는 그림을 고치는 것이었습니다.)
  • 불량 재료 제거 (데이터 정제): 이 중 상한 재료 (흐릿한 사진, 물감이 번진 그림, 불필요한 로고 등) 를 모두 걸러냈습니다. 마치 신선한 재료만 고르듯, 1 억 개 이상의 고품질 레시피만 남겼습니다.
  • 다양한 요리법: 자연 풍경, 인물, 디자인, 텍스트 수정 등 모든 종류의 편집을 배웠습니다.

3. 어떻게 훈련시켰나요? (현실적인 연습)

단순히 레시피를 외우는 게 아니라, 실제 상황에 맞춰 훈련시켰습니다.

  • 혼란스러운 상황 연습: "이 사진 1 번과 2 번을 섞어서 3 번처럼 만들어줘"라고 할 때, 사진 순서가 바뀌어도 혼란스럽지 않도록 무작위 섞기 훈련을 시켰습니다.
  • 점진적인 학습:
    1. 기본기 (Pre-training): 세상 모든 그림을 보고 기본기를 다집니다.
    2. 실전 훈련 (SFT): "이건 이렇게 고쳐줘"라는 구체적인 지시를 따라가며 연습합니다.
    3. 맛보기 평가 (RLHF): 인간이 "이게 더 맛있어"라고 평가한 결과를 보고, 더 맛있는 요리 (더 좋은 그림) 를 만들도록 보상을 줍니다.
  • 얼굴 보존 기술: 인물을 편집할 때, 옷은 바꾸되 얼굴은 원래 사람과 똑같이 유지하는 기술을 특별히 개발했습니다. (마치 의상만 갈아입고 얼굴은 그대로인 것처럼요.)

4. 얼마나 잘하나요? (요리 대회 우승)

이 기술은 전 세계의 다른 유명 AI 들과 **요리 대회 (벤치마크)**를 치렀습니다.

  • 경쟁자: 구글, 마이크로소프트, 알리바바의 다른 모델 등 유명한 '유명 셰프'들과 경쟁했습니다.
  • 결과: 오픈소스 (무료) 모델 중에서는 1 등을 차지했고, 유료 (비밀 레시피) 모델들과도 비슷하거나 더 좋은 점수를 받았습니다.
  • 특히 잘하는 것:
    • 텍스트 수정: 사진 속의 글자를 지우고 새로운 글자를 넣을 때, 글씨체가 흐트러지지 않고 자연스럽게 들어갑니다.
    • 인물 편집: 옷을 입히거나 (가상 피팅), 배경을 바꾸거나, 얼굴 표정을 고칠 때 매우 자연스럽습니다.
    • 창의적 작업: "이 사진을 만화 스타일로 바꿔줘"나 "이 물체를 공중에 띄워줘" 같은 상상력을 요구하는 작업도 잘해냅니다.

5. 새로운 시험지 (REDEdit-Bench)

이 팀은 단순히 점수를 따기 위해, **새로운 시험지 (REDEdit-Bench)**를 직접 만들었습니다.
기존 시험지에는 없던 **'뷰티 편집 (화장/미용)'**이나 '저화질 사진 고치기' 같은 실생활에 꼭 필요한 15 가지 카테고리를 포함시켰습니다. 이 시험에서 가장 좋은 성적을 냈다는 것은, 이 기술이 실제 사람들이 일상에서 쓸 수 있다는 뜻입니다.


💡 한 줄 요약

"FireRed-Image-Edit 는 방대한 양의 레시피를 공부하고, 인간 셰프의 평가를 받으며 훈련된, '말만 하면 그림을 마법처럼 고쳐주는' 똑똑하고 가벼운 AI 요리사입니다."

이 기술은 앞으로 우리가 사진을 편집할 때, 복잡한 프로그램을 쓸 필요 없이 **"이 부분만 지워줘", "이 옷으로 바꿔줘"**라고 말하면 바로 해결해 줄 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →