Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Each language version is independently generated for its own context, not a direct translation.

想像해 보세요. 세계적인 요리 대회가 열렸습니다. 심사위원들은 각 요리의 맛을 평가해야 합니다.

1. 과거의 방식 (숫자 중심 평가)
과거에는 심사위원들이 "소금의 양 (그램)", "당도의 수치", "색깔의 RGB 값" 같은 정확한 숫자만 보고 점수를 매겼습니다.

문제점: "소금 5g, 설탕 10g"을 정확히 넣은 요리는 점수가 높았지만, 막상 먹어보면 "맛이 없거나 너무 짜서 먹기 힘들다"는 결과가 나왔습니다. 반면, 소금 양이 조금 어긋났지만 "진짜 맛있는" 요리는 점수가 낮게 나왔죠.
논문이 말하는 것: "요리 (이미지 복원) 의 목적은 숫자를 맞추는 게 아니라, 사람이 먹었을 때 (봤을 때) 기분이 좋은 거 아닙니까?"

2. 현재 상황 (생성형 AI 의 등장)
최근에는 AI 가 요리를 할 때, 단순히 재료만 섞는 게 아니라 새로운 맛과 향을 창조합니다. (GAN, Diffusion 모델 등)

현실: AI 가 만든 요리는 전통적인 '소금 계량기 (PSNR, SSIM 같은 기존 점수)'로는 측정할 수 없는 새로운 맛을 냅니다.
갈등: AI 가 만든 요리는 숫자 점수로는 '오래된 레시피'보다 낮게 나오지만, 사람들은 "와, 진짜 맛있는데?"라고 말합니다. 그런데도 연구자들은 "점수가 낮으니 다시 만들어야지"라고 생각하며, 사람이 좋아하는 맛보다는 점수만 올리는 요리를 개발하게 됩니다.

1. "점수 조작"의 유혹 (과도한 날카로움)

상황: AI 가 점수를 잘 받으려고, 이미지의 모든 부분을 과도하게 날카롭게 (Sharpening) 만들거나, 존재하지 않는 털이나 주름을 가짜로 추가 (Hallucination) 합니다.
결과: 점수판 (MUSIQ, MANIQA 등) 은 "와, 디테일이 많네! 점수 100 점!"이라고 외칩니다.
현실: 하지만 사람이 보면 "너무 거칠고 인위적이라 눈이 아프다"고 생각합니다.
비유: 마치 "소금 양을 100g 으로 늘려서 점수판은 최고지만, 맛은 짠물"인 요리를 상급으로 치는 꼴입니다.

2. "하나의 점수"로 모든 것을 재단하는 오류

상황: "이 그림은 얼굴, 저 그림은 풍경, 또 저건 만화"인데, 모두 하나의 점수로만 평가합니다.
문제: 어떤 AI 는 만화 그리는 데는 천재지만, 사람 얼굴을 그리면 뭉개집니다. 그런데 "전체 점수"만 보면 "A 가 B 보다 낫다"라고 결론 내립니다.
비유: "축구선수와 수영선수를 같은 점수로 비교해서 누가 더 운동신경이 좋은지 판단한다"는 것과 같습니다. 상황 (Context) 에 따라 평가 기준이 달라져야 합니다.

3. 평가 기준이 기술 발전보다 뒤처짐

상황: 요리 기술 (AI) 은 발전해서 1024x1024 고해상도, 수십억 개의 재료를 다루는데, 점수판 (IQA 모델) 은 여전히 10 년 전의 작은 재료와 간단한 조리법으로만 평가합니다.
결과: 최신 기술이 만들어낸 '진짜 같은' 요리를 점수판은 제대로 평가하지 못합니다.

이 논문은 "점수를 아예 없애라"는 뜻이 아닙니다. 점수는 여전히 필요하지만, 주인공이 바뀌어야 한다고 말합니다.

점수는 보조 수단, 사람은 주인공:
- "이 그림이 점수는 80 점이지만, 사람들이 보기에 가장 자연스럽고 예쁘다"면 그게 진짜 성공입니다.
- 연구자들은 "점수 100 점"을 쫓는 게 아니라, **"사람이 봤을 때 어떤 감정을 느끼게 할까?"**를 고민해야 합니다.
세부적인 평가 (다차원 분석):
- "얼굴은 잘 그렸나?", "만화는 자연스러운가?", "텍스트는 읽을 수 있는가?"처럼 상황별로 나누어 평가해야 합니다.
- 단순히 "좋다/나쁘다"가 아니라, "어떤 부분이 좋고, 어떤 부분이 어색한지" 구체적인 피드백을 줘야 합니다.
새로운 점수판 개발:
- 기존 점수판이 AI 의 새로운 능력을 이해하지 못하므로, 인간의 눈과 뇌를 더 잘 모방하는 새로운 평가 도구를 만들어야 합니다. (예: 언어 모델과 결합하여 "이 그림의 분위기가 어때?"라고 물어보는 식)

"컴퓨터가 만든 그림을 평가할 때, 기계가 계산한 '숫자 점수'에 매달리지 말고, 실제 사람이 보고 느끼는 '진짜 아름다움'과 '자연스러움'을 기준으로 삼아야 합니다. 그래야 기술이 진짜 사람을 위해 발전할 수 있습니다."

이 논문은 연구자들이 "점수판의 주인"이 되지 말고, **"사람의 마음을 읽는 주인"**이 되기를 호소하는 선언문입니다.

유사한 논문