Bridging Human Evaluation to Infrared and Visible Image Fusion

이 논문은 인간 평가와 적외선/가시광선 이미지 융합을 연결하기 위해 대규모 인간 피드백 데이터셋과 보상 모델을 구축하고, 그룹 상대적 정책 최적화를 통해 융합 네트워크를 미세 조정하여 인간 시각적 선호도와 더 잘 부합하는 최첨단 성능을 달성하는 피드백 강화 프레임워크를 제안합니다.

Jinyuan Liu, Xingyuan Li, Qingyun Mei, Haoyuan Xu, Zhiying Jiang, Long Ma, Risheng Liu, Xin Fan

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인간이 눈으로 봤을 때 '아, 이거 진짜 예쁘고 잘 합성됐네!'라고 느끼는 적외선과 가시광선 이미지 융합 기술"**을 개발한 연구입니다.

기존 기술들은 컴퓨터가 계산하는 숫자 (수치) 가 좋으면 좋다고 했지만, 정작 인간이 보기엔 어색하거나 뭉개진 경우가 많았습니다. 이 연구는 그 간극을 메우기 위해 인간의 '취향'을 직접 가르쳐 주는 새로운 방식을 제안합니다.

이 내용을 쉽게 이해할 수 있도록 요리사와 미식가의 비유로 설명해 드릴게요.


🍳 핵심 비유: "요리사 (AI) 와 미식가 (인간) 의 협업"

지금까지의 이미지 융합 기술은 **요리사 (AI)**가 오직 **계량기 (수치 지표)**만 보고 요리를 했습니다.

  • "소금 3g, 설탕 5g 정확히 넣었으니 이 요리는 완벽해!"라고 생각했지만, 정작 **미식가 (사람)**가 먹어보니 "너무 짜고 맛이 이상해!"라고 불만을 표출하는 상황이었습니다.

이 논문은 **"요리사가 미식가의 입맛을 직접 배워서 요리를 하라"**는 새로운 방식을 제시합니다.

1. 문제점: "계량기만 믿던 요리사"

  • 상황: 적외선 카메라 (밤에 뜨거워 보이는 물체) 와 일반 카메라 (색감과 질감) 를 합쳐서 한 장의 사진을 만드는 기술입니다.
  • 문제: 기존 AI 는 "수치적으로 얼마나 잘 섞였나?"만 계산했습니다. 하지만 인간은 "그림자가 너무 어두워", "자동차 모양이 뭉개졌어", "색감이 어색해"라고 느낍니다.
  • 결과: 컴퓨터 점수는 높지만, 사람이 보기엔 별로인 사진이 계속 만들어졌습니다.

2. 해결책 1: "미식가들의 취향 지도 만들기" (새로운 데이터셋)

연구팀은 먼저 인간이 무엇을 좋아하는지 정리한 거대한 지도를 만들었습니다.

  • 100 명의 전문가와 AI 가 함께 일했습니다: 9,350 장의 합성 사진을 모아, "이 사진의 열감은 몇 점?", "결점은 어디에 있나?", "선명도는 어때?"를 1~5 점으로 매겼습니다.
  • AI 미식가 (GPT-4o) 의 역할: 처음엔 인간 전문가 4 명이 100 장을 직접 평가하고, 그 결과를 바탕으로 거대한 AI(GPT-4o) 를 교육시켰습니다. 이제 AI 가 인간처럼 "이 사진은 결점이 보이네"라고 스스로 판단할 수 있게 된 것입니다.
  • 결과: "인간의 눈이 좋아하는 사진"에 대한 방대한 데이터베이스가 완성되었습니다.

3. 해결책 2: "요리사에게 미식가의 피드백을 주는 시스템" (보상 모델)

이제 요리사 (융합 AI) 를 훈련시킬 때, 단순히 "수치 맞추기"가 아니라 **"미식가 (Reward Model) 의 점수"**를 기준으로 훈련시킵니다.

  • 보상 모델 (미식가): 합성된 사진을 보고 "이건 결점이 너무 많아서 2 점, 저건 질감이 살아있어서 5 점!"이라고 점수를 매겨줍니다.
  • GRPO (그룹 상대 정책 최적화): 이 방식은 마치 요리 대회와 같습니다.
    • 요리사 (AI) 가 같은 재료를 가지고 여러 가지 요리를 만들어냅니다.
    • 미식가 (보상 모델) 가 각 요리를 시식하고 점수를 줍니다.
    • "이번엔 저 요리 (A) 가 이 요리 (B) 보다 더 맛있었네?"라고 비교해서, 더 좋은 요리를 만든 방향으로 요리사의 레시피를 수정합니다.
    • 특히 **SAM(세그먼트 Anything 모델)**을 이용해 사진 속 중요한 부분 (사람, 차, 건물) 을 잘라내어, "여기만 더 잘 만들어줘"라고 세밀하게 지시합니다.

4. 결과: "사람이 보기에 가장 자연스러운 사진"

이 새로운 방식으로 훈련된 AI 는 기존 기술들보다 훨씬 뛰어난 결과를 냈습니다.

  • 시각적 만족도: 밤에 찍은 사진에서도 사람의 얼굴이 흐릿하지 않고, 자동차의 윤곽이 뚜렷하며, 안개 낀 길에서도 보행자가 잘 보입니다.
  • 하류 작업 (응용): 이 사진을 바탕으로 '사람 찾기'나 '차량 인식'을 하는 AI 가 훨씬 정확하게 작동합니다. (예: 안개 낀 밤길에서도 오토바이를 놓치지 않음)

🌟 한 줄 요약

"컴퓨터가 계산하는 '점수'가 아니라, 사람이 느끼는 '맛 (취향)'을 가르쳐서, 밤과 낮의 사진을 합성할 때 우리 눈이 가장 편안하고 아름답게 느끼는 사진을 만들어냈다."

이 기술은 보안 카메라, 자율주행차, 의료 영상 등 사람이 직접 보고 판단해야 하는 중요한 분야에서 큰 도움을 줄 것으로 기대됩니다. 마치 요리사가 미식가의 입맛을 배워 더 맛있는 요리를 내놓는 것처럼, AI 도 이제 인간의 눈을 배워 더 좋은 사진을 만들어내는 것입니다.