HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

이 논문은 STEM 중심의 기존 벤치마크의 한계를 극복하고 인문사회과학 (HSS) 분야의 다국어 평가와 교차 학문적 추론 능력을 측정하기 위해 전문가와 자동 에이전트의 협업을 통해 13,000 개 이상의 샘플로 구성된 'HSSBench'를 제안하고, 이를 통해 최신 다중모달 대규모 언어 모델들이 여전히 큰 도전에 직면해 있음을 입증합니다.

Zhaolu Kang, Junhao Gong, Jiaxu Yan, Wanke Xia, Yian Wang, Ziwen Wang, Huaxuan Ding, Zhuo Cheng, Wenhao Cao, Zhiyuan Feng, Siqi He, Shannan Yan, Junzhe Chen, Xiaomin He, Chaoya Jiang, Wei Ye, Kaidong Yu, Xuelong Li

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌍 HSSBench: 인공지능에게 "인문사회학" 시험을 치르게 하다

이 논문은 **"HSSBench"**라는 새로운 시험지를 소개합니다. 이 시험지는 인공지능 (AI) 이 수학이나 과학 같은 딱딱한 지식뿐만 아니라, 인문학과 사회과학 (역사, 경제, 예술, 문화 등) 분야에서도 얼마나 똑똑한지 측정하기 위해 만들어졌습니다.

이 내용을 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.


1. 왜 이런 시험이 필요할까요? (현재의 문제점)

지금까지 AI 를 평가하던 시험지는 주로 수학이나 과학 (STEM) 위주였습니다. 마치 "인공지능에게 미분방정식을 풀게 하거나, 코딩을 시키는 것"과 비슷하죠.

하지만 **인문사회학 (HSS)**은 다릅니다.

  • 수학 문제: 정답이 하나이고, 논리만 따라가면 됩니다. (예: 2+2=? → 4)
  • 인문 문제: 정답이 여러 개일 수 있고, 역사적 배경, 문화적 맥락, 예술적 해석이 섞여 있습니다. (예: "이 그림에서 화가가 왜 붉은색을 썼을까?")

비유하자면:
지금까지 AI 는 수학 천재로만 평가받았습니다. 하지만 진짜 똑똑한 사람이 되려면 수학뿐만 아니라 역사도 알고, 예술을 감상할 줄도 알며, 다른 사람의 감정을 이해하는 사회과학 지식도 있어야 합니다.
현재 AI 는 수학은 잘 풀지만, 그림을 보고 "이게 어떤 역사적 사건을 상징하는지"를 모르면 실수를 합니다. 마치 "수학은 100 점인데, 역사와 예술은 0 점인 학생"과 같습니다.


2. HSSBench 는 어떤 시험인가요? (시험의 특징)

이 연구팀이 만든 HSSBench는 AI 의 인문사회학적 능력을 측정하는 거대한 문제집입니다.

  • 문제 양:13,000 개 이상의 문제.
  • 범위: 지리, 경제, 문화, 사회과학, 역사, 예술 등 6 가지 큰 분야45 가지 세부 주제를 다룹니다.
  • 언어: 유엔의 6 개 공용어 (영어, 중국어, 프랑스어, 러시아어, 스페인어, 아랍어) 로 되어 있어 전 세계 문화를 다룹니다.
  • 문제 형태: 단순히 글만 읽는 게 아니라, 사진, 지도, 그림, 그래프를 보고 문제를 풀어야 합니다.

창의적인 비유:
이 시험지는 **"AI 를 위한 '전인교육' 입학시험"**입니다.

  • 지리 문제: 지도를 보고 "이 지형이 왜 이렇게 생겼는지" 설명하기.
  • 경제 문제: 그래프를 보고 "기업이 왜 손해를 보는지" 추론하기.
  • 예술 문제: 고대 유물을 보고 "이것이 어떤 의식에서 쓰였는지" 유추하기.

이 문제는 AI 가 **이미지 (시각)**와 **지식 (텍스트)**을 연결해서 생각할 수 있는지 테스트합니다.


3. 시험 결과: AI 는 잘했을까요? (결과 분석)

결론부터 말하면, AI 는 아직 이 시험에서 고전하고 있습니다.

  • 성적: 최신 AI 모델들도 평균 60% 미만의 점수를 받았습니다. (전문가는 90% 이상 맞췄습니다.)
  • 가장 어려운 과목: 경제학이 가장 어려웠습니다. 복잡한 이론과 맥락을 동시에 이해해야 하기 때문입니다.
  • 가장 쉬운 과목: 지리학이 상대적으로 잘 풀었습니다. 사실 (Fact) 위주의 정보가 많아 AI 가 기억하기 좋았기 때문입니다.

비유하자면:
AI 는 **"암기왕"**은 될 수 있지만, **"해석왕"**은 아직 못 됩니다.

  • AI 는 "이 지도에 산이 있다"는 건 알 수 있지만, "왜 이 산이 중요한 역사적 의미가 있는지"를 연결하는 데는 실패합니다.
  • 특히 **정답을 고르는 문제 (객관식)**에서는 조금 잘하지만, **스스로 답을 만들어내는 문제 (주관식)**에서는 점수가 급격히 떨어집니다. AI 가 스스로 생각할 때 헷갈려서 엉뚱한 답을 내놓는 경우가 많기 때문입니다.

4. 이 연구가 우리에게 주는 메시지

이 논문은 AI 개발자들에게 중요한 신호를 보냅니다.

"AI 를 더 똑똑하게 만들려면, 수학 문제만 더 많이 풀게 하는 게 아니라, 인문학과 사회과학의 깊이 있는 이해를 시켜야 한다."

마무리 비유:
지금까지 AI 는 **공부 잘하는 '수학 천재'**로만 키웠습니다. 하지만 앞으로는 **인간처럼 다양한 지식을 연결하고, 문화를 이해하며, 복잡한 상황을 해석할 수 있는 '만능 지성'**으로 키워야 합니다.

HSSBench는 바로 그 '만능 지성'으로 가는 길목에서 AI 가 어디에 약한지 알려주는 나침반 역할을 할 것입니다. 이 시험지를 통해 AI 가 더 인간적이고, 깊이 있는 사고를 할 수 있도록 발전하기를 기대합니다.