SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

이 논문은 과학 논문 내의 표 데이터에 대한 언어 추론과 복잡한 계산이 필요한 질문을 다루는 새로운 벤치마크 'SciTaRC'를 소개하며, 현재 최첨단 AI 모델들이 실행 계획의 충실한 수행 실패로 인해 해당 작업에서 상당한 성능 저하를 보인다는 사실을 규명합니다.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📊 과학 논문 속 '숫자 퍼즐'을 푸는 AI 의 한계: SciTaRC 연구 소개

이 논문은 **"AI 가 과학 논문에 나오는 복잡한 표 (Table) 를 보고 문제를 풀 때, 왜 그렇게 많이 틀리는가?"**를 파헤친 흥미로운 연구입니다. 연구진은 이를 위해 **'SciTaRC'**라는 새로운 시험지를 만들었습니다.

이 내용을 일반인도 쉽게 이해할 수 있도록 비유와 일상적인 언어로 설명해 드릴게요.


1. 시험지 (SciTaRC) 는 무엇인가요?

상상해 보세요. AI 가 과학자들의 논문에서 가져온 **복잡한 표 (데이터)**를 보고, 그 안에서 답을 찾아야 하는 시험을 치른다고 가정해 봅시다.

  • 기존 시험: "사과 3 개, 배 2 개면 몇 개?" 같은 단순한 계산.
  • SciTaRC 시험: "2024 년 AI 논문 표에서 'Qwen2-Audio'라는 모델이 한국어로 가장 낮은 점수를 받은 이유를 찾고, 다른 모델들의 평균 점수를 계산해서 비교해 주세요."
    • 난이도: 언어를 이해하고, 표에서 필요한 숫자를 찾아내고, 복잡한 계산을 하고, 논리적으로 결론을 내려야 합니다. 마치 복잡한 레시피를 보고 요리를 하되, 재료가 섞여 있는 냉장고에서 찾아서 조리해야 하는 상황과 같습니다.

2. AI 들의 성적표: "최고의 천재도 30% 는 틀려요"

연구진은 최신 AI 모델 (GPT-5, Llama-3, Qwen 등) 24 개를 이 시험에 출전시켰습니다. 결과는 충격적이었습니다.

  • 최고의 AI (GPT-5) 도 76.8% 만 맞췄습니다. 즉, 100 점 만점에 23 점 이상을 틀린 것입니다.
  • 오픈소스 모델 (Llama-3.3 등) 은 65% 이상을 틀렸습니다.
  • 결론: 아무리 똑똑한 AI 일지라도, 과학 논문의 복잡한 표를 다루는 데는 여전히 큰 벽이 존재합니다.

3. 왜 틀릴까요? (핵심 발견 3 가지)

① "계획은 잘 세우는데, 실행을 못 해요" (실행 병목 현상)

AI 는 문제를 풀 때 두 단계를 거칩니다.

  1. 계획 세우기: "먼저 A 를 찾고, 그다음 B 를 계산하자."
  2. 실행하기: 실제로 A 를 찾고 B 를 계산하는 것.

연구 결과, AI 는 계획을 잘 세우지만, 그 계획을 실제로 수행할 때 엉망이 됩니다.

비유: 요리사가 "먼저 양파를 다지고, 그다음 고기를 볶자"라고 완벽하게 계획을 세웠는데, 막상 주방에 들어가면 양파를 다지는 칼질 실수가 나거나, 불 조절을 잘못해 고기를 태워버리는 상황입니다. AI 는 '계획'보다 '실제 손기술 (실행)'이 더 약한 것입니다.

② "코드로 풀면 더 망쳐요" (코드 vs 언어)

많은 사람이 "숫자 계산은 코드로 하는 게 낫지 않나?"라고 생각했습니다. 하지만 이 연구에서는 반대 결과가 나왔습니다.

  • 자연어 (말) 로 생각할 때: AI 가 표의 복잡한 구조를 유연하게 이해합니다.
  • 코드 (Python 등) 로 풀게 했을 때: AI 는 오히려 더 많이 틀렸습니다.

    비유: 과학 논문의 표는 정리되지 않은 잡동사니가 섞인 창고와 같습니다. AI 는 이 창고를 정리된 코드로 옮기려다 실수를 범하고, 오히려 말로 설명할 때 더 잘 찾아냅니다. 코드가 너무 딱딱해서 이 '잡동사니'를 다룰 수 없었던 것입니다.

③ "문제를 잘못 읽는 게 가장 큰 실수"

AI 가 틀린 이유를 분석했더니, 계산 실수보다 문제 의도를 잘못 이해하는 경우가 73% 로 가장 많았습니다.

비유: "사과를 3 개 사오라"는 지시를 듣고 "배를 3 개 사옴"이라고 답하는 실수입니다. 숫자 계산은 잘해도, **무엇을 찾아야 하는지 (이해)**를 놓치면 모든 게 무너집니다.

4. 이 연구가 우리에게 알려주는 것

이 논문은 AI 기술이 "지식"을 아는 수준을 넘어, **"복잡한 일을 실제로 수행하는 능력"**에서 아직 한계가 있음을 보여줍니다.

  • 현재 상황: AI 는 훌륭한 '전략가'일 수 있지만, '실무자'로서는 아직 신뢰할 수 없는 부분이 많습니다.
  • 미래 과제: 앞으로의 AI 개발은 단순히 더 똑똑하게 만드는 것이 아니라, **계획한 대로 정확하게 실행하는 능력 (Faithful Execution)**을 키우는 데 집중해야 합니다.

요약

SciTaRC는 AI 에게 "과학 논문의 복잡한 표를 보고 문제를 풀어라"는 시험을 치르게 했습니다. 결과는 **"AI 는 계획을 잘 세우지만, 실제로 손으로 (또는 코드로) 수행할 때 자주 실패한다"**는 것입니다. 특히 코드로 풀려고 하면 더 망치고, 문제를 잘못 읽는 실수가 가장 많습니다.

이 연구는 **"AI 가 더 똑똑해지기 전에, 먼저 '착하게' 일을 처리할 수 있도록 훈련시켜야 한다"**는 중요한 메시지를 전합니다.