The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

이 논문은 시각 생성 AI 모델의 학습 데이터 선별에 널리 사용되는 'LAION-Aesthetics Predictor'를 감사 및 추적 민속지학적 방법으로 분석한 결과, 해당 모델이 서구 중심의 미적 기준과 성별 편향을 반영하여 여성, LGBTQ+ 및 비서구 예술을 배제하는 등 대표성 해악을 재생산함을 규명하고, 이를 극복하기 위해 더 다양하고 포용적인 평가 체계로의 전환을 촉구하고 있습니다.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "AI 가 그림의 아름다움을 어떻게 판단하는지, 그리고 그 판단 기준이 얼마나 편향되어 있는지" 를 파헤친 연구입니다.

마치 "AI 가 그림을 평가하는 심사위원" 을 조사한 보고서라고 생각하시면 됩니다. 이 심사위원의 이름은 'LAION-Aesthetics Predictor (LAP)' 입니다. 이 심사위원은 스테이블 디퓨전 (Stable Diffusion) 같은 유명한 AI 그림 생성 모델들을 훈련시키는 데 쓰이는 '데이터'를 선별하고, AI 가 그린 그림이 잘 그려졌는지 점수를 매기는 역할을 합니다.

연구진은 이 심사위원의 눈을 들여다보고 "도대체 누구의 취향을 기준으로 그림을 평가하고 있는가?" 라는 질문을 던졌습니다.

이 연구의 핵심 내용을 일상적인 비유로 설명해 드리겠습니다.


1. 문제의 시작: "하나의 미적 기준"이라는 함정

우리는 "아름답다"는 것이 사람마다, 문화마다 다 다르다는 것을 압니다. 어떤 사람은 추상화를 좋아하고, 어떤 사람은 사실적인 풍경을 좋아하죠. 그런데 AI 개발자들은 "세상의 모든 그림을 평가할 수 있는 하나의 만능 점수표" 를 만들려고 했습니다. 마치 전 세계 모든 사람의 입맛을 만족시키는 '단 하나의 최고의 소금'을 찾으려는 것과 비슷합니다.

이 논문은 그 '만능 소금' (LAP) 이 실제로는 특정 그룹의 취향만 반영하고 있다는 사실을 폭로합니다.

2. 조사 결과 1: "누가 그림에 등장할까?" (인종과 성별 편향)

연구진이 LAP 가 선별한 12 억 장이 넘는 그림들을 분석해 보니 놀라운 결과가 나왔습니다.

  • 여성은 환영, 남성과 성소수자는 배제: 그림 설명에 '여자'라는 단어가 나오면 점수가 높게 나왔지만, '남자'나 '성소수자 (LGBTQ+)' 관련 단어는 점수가 낮게 나와서 걸러졌습니다.
  • 비유: imagine 하세요. 한 미술관 심사위원이 "여자가 그려진 그림은 모두 '최고'라고 치고, 남자가 그려진 그림이나 성소수자가 등장하는 그림은 '나쁜 그림'이라고 치는" 상황을요. 결과적으로 AI 가 배우는 데이터에는 여성이 과대표되고, 남성과 성소수자는 사라지게 됩니다.

3. 조사 결과 2: "어떤 스타일이 최고일까?" (서구 중심과 사실주의)

LAP 가 점수를 매긴 33 만 장의 예술 작품을 분석한 결과, 다음과 같은 취향이 드러났습니다.

  • 서구와 일본의 풍경화, 초상화 최고: 유럽의 산, 도시 풍경, 사람의 얼굴을 사실적으로 그린 그림들이 최고 점수를 받았습니다.
  • 비서구 문화와 추상화 최하위: 아프리카, 중동, 원주민 문화의 예술이나, 현대적인 추상 미술은 점수가 매우 낮게 나왔습니다.
  • 비유: 마치 "서양 미술관에서만 걸리는 그림들" 만 "아름답다"고 인정하고, 그 밖의 모든 문화권 예술이나 실험적인 현대 미술은 "추하다"고 치는 것과 같습니다. 이는 서구 제국주의 시대의 시선 (Imperial Gaze) 이 AI 에 그대로 재현된 것입니다.

4. 왜 이런 일이 일어났을까? (심사위원의 배경 조사)

연구진은 이 편향된 심사위원 (LAP) 이 어떻게 만들어졌는지 그 '배경'을 추적했습니다 (Trace Ethnography).

  • 한 남자의 취향: 이 모델은 LAION 이라는 단체를 만든 독일인 남성 (크리스토프 슈후만) 이 혼자서 만들었습니다. 그는 "내 취향에 맞는 데이터만 섞으면 되겠다"라고 생각하며 데이터를 조합했습니다.
  • 데이터의 편향: 이 모델을 가르친 데이터는 크게 세 가지였는데, 모두 영어권 사진 작가들이나 서구권의 AI 열성 팬들이 평가한 것이었습니다.
    • 비유: 전 세계의 미식가들을 대표하는 요리를 평가하는 심사위원을 뽑으려는데, 심사위원은 한 명의 미국인 요리사가 직접 고른 미국인들만 참여한 요리 대회의 점수표만 보고 만든 것과 같습니다. 당연히 그 기준은 전 세계인의 취향을 대표할 수 없죠.

5. 결론: 우리가 무엇을 해야 할까?

이 연구는 우리에게 중요한 메시지를 줍니다.

  • "아름다움"은 절대적이지 않다: AI 가 "이 그림이 10 점 만점에 9 점이다"라고 점수를 매기는 것은, 사실 "이 그림이 서구적인 남성들의 취향과 사실주의 스타일에 얼마나 가까운가" 를 점수 매기는 것에 불과합니다.
  • 다양한 기준이 필요하다: 우리는 AI 개발자들에게 "하나의 정답 (보편적 미적 기준)"을 찾으려 하지 말고, "다양한 취향을 인정하는 여러 가지 기준" 을 만들라고 요구해야 합니다.
    • 예를 들어, "사실적인 그림을 원할 때"와 "추상적인 그림을 원할 때"를 구분해서 평가해야 한다는 것입니다.

요약

이 논문은 "AI 가 그림을 평가하는 눈 (Algorithmic Gaze) 이 사실은 특정 서구 남성들의 편향된 시선" 이라는 것을 폭로했습니다. 마치 거울을 통해 세상을 보는데, 그 거울이 비틀어져서 특정 사람들만 아름답게 보이고 나머지는 추하게 비추는 것과 같습니다.

이제 우리는 그 거울을 고쳐야 합니다. "누구의 취향으로 AI 를 가르치고 있는가?" 를 끊임없이 질문하고, 더 다양하고 포용적인 기준을 만들어야 AI 가 우리 모두의 문화를 제대로 반영할 수 있습니다.