Using Vision + Language Models to Predict Item Difficulty

이 논문은 GPT-4.1-nano 를 활용하여 시각화 리터러시 테스트 문항의 난이도를 예측한 결과, 텍스트와 이미지를 모두 활용한 멀티모달 접근법이 단일 모달 방식보다 가장 낮은 오차로 우수한 성능을 보임을 입증했습니다.

Samin Khan

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"컴퓨터가 그림과 글을 함께 보면, 시험 문제가 얼마나 어려운지 미리 알 수 있을까?"**라는 흥미로운 질문에서 시작합니다.

간단히 말해, AI(인공지능) 가 데이터 차트 (그림) 와 문제 (글) 를 함께 분석해서, 일반인들이 그 문제를 맞힐 확률을 얼마나 잘 예측하는지를 연구한 내용입니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🎯 핵심 아이디어: "맛있는 음식의 난이도 예측하기"

상상해 보세요. 여러분이 새로운 요리를 만들고 있어요. 그 요리를 먹어본 사람들이 "어떤 정도까지 맛있게 먹었을까?" (정답률) 를 예측하고 싶다고 칩시다.

이 연구는 AI 에게 세 가지 방법을 실험해 보게 했습니다.

  1. 글자만 보는 방법 (Text-only):

    • AI 가 요리 레시피 (문제 지문) 만 읽고 난이도를 예측합니다.
    • 비유: "이 레시피에 '고추'가 10 개나 들어갔네. 너무 매울 거야, 어려울 거야!"라고 추측하는 거죠. 하지만 실제 요리는 어떻게 생겼는지 모릅니다.
    • 결과: 예측이 그리 정확하지 않았습니다. (오차 0.338)
  2. 그림만 보는 방법 (Vision-only):

    • AI 가 완성된 요리 사진 (데이터 차트) 만 보고 난이도를 예측합니다.
    • 비유: "와, 이 요리는 색깔이 너무 복잡하고 장식도 많네. 먹기 힘들겠어, 어려울 거야!"라고 추측합니다. 하지만 어떤 재료가 들어갔는지 (문제 내용) 는 모릅니다.
    • 결과: 글자만 볼 때보다는 조금 나았지만, 여전히 부족했습니다. (오차 0.282)
  3. 글자 + 그림을 함께 보는 방법 (Multimodal):

    • AI 가 **레시피 (글)**와 **요리 사진 (그림)**을 함께 봅니다.
    • 비유: "레시피에는 '매운 고추'가 들어갔는데, 사진은 너무 화려하고 복잡하게 장식되어 있네. 이 두 가지가 합쳐지면 일반인이 먹기 정말 힘들겠구나!"라고 정확히 파악합니다.
    • 결과: 가장 정확했습니다! (오차 0.224)

🔍 연구는 무엇을 발견했나요?

이 연구는 **"그림과 글은 따로 떼어놓고 보면 불완전하지만, 함께 보면 시너지가 발생한다"**는 것을 증명했습니다.

  • 왜 함께 봐야 할까요?
    • 어떤 차트 (그림) 는 아주 단순해 보이지만, 문제 (글) 가 매우 기발하고 헷갈리게 물어볼 수 있습니다.
    • 반대로, 글은 아주 쉬워 보이지만 차트 (그림) 가 너무 복잡해서 해석하기 어려울 수 있습니다.
    • AI 가 이 두 가지를 동시에 분석해야만, "아, 이 문제는 그림이 복잡하고 질문도 까다로워서 사람들이 틀릴 확률이 높구나!"라고 정확히 맞힐 수 있었습니다.

🚀 이 기술이 왜 중요할까요?

이 기술은 **"시험 문제 만들기"**를 혁신할 수 있습니다.

  • 과거: 교육 전문가들이 문제를 만들고, 수천 명의 학생들에게 시험을 보게 한 뒤, "어? 이 문제는 너무 어려웠네, 수정해야겠다"라고 사후에 확인했습니다. (시간과 비용이 많이 듦)
  • 미래: AI 가 문제를 만들자마자 "이 문제는 그림과 글이 너무 복잡해서 100 명 중 80 명이 틀릴 거야"라고 미리 알려줍니다.
    • 이렇게 되면 교육자들은 문제를 출제하기 전에 난이도를 조절할 수 있어, 더 공정하고 효과적인 시험을 만들 수 있습니다.

⚠️ 아쉬운 점 (한계)

연구에는 약간의 실수도 있었습니다.

  • SVG 파일 문제: 어떤 그림 파일 (.svg) 은 AI 가 직접 볼 수 없어서, 그 부분만 "아무것도 모른다"고 가정하고 중간값 (0.5) 을 대입했습니다. 마치 요리를 만들 때 "재료 목록은 있는데, 요리 사진이 없는 경우"를 임의로 추측한 것과 비슷합니다.
  • 하나의 AI 만 사용: 특정 AI 모델 (GPT-4.1-nano) 만 썼기 때문에, 다른 모델을 쓰면 결과가 달라질 수도 있습니다.

💡 결론

이 논문은 **"AI 가 눈 (그림) 과 귀 (글) 를 모두 사용하면, 인간의 학습 난이도를 훨씬 잘 이해할 수 있다"**는 것을 보여줍니다.

마치 맛있는 요리를 평가할 때, 레시피와 완성된 요리를 함께 봐야 진정한 맛을 알 수 있듯이, 데이터 시각화 문제의 난이도도 그림과 글을 함께 분석할 때 가장 정확하게 예측할 수 있다는 뜻입니다. 이는 앞으로 더 나은 교육 자료와 시험을 만드는 데 큰 도움을 줄 것입니다.