AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

이 논문은 일상적 상식과 수학적 추론을 결합한 새로운 벤치마크 'AgentCoMa'를 제안하여, 대형 언어 모델이 개별 단계는 잘 수행하지만 두 추론 유형이 혼합된 복합 과제에서는 인간에 비해 약 30% 의 성능 저하를 보이며 취약함을 드러냈음을 보고합니다.

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek Rei

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 🍳 요리사 비유: "재료는 좋은데 레시피를 섞으면 실패?"

생각해 보세요. 아주 뛰어난 요리사가 있다고 칩시다.

  • 상식 (Commonsense): "양파는 껍질을 벗겨야 한다"는 것을 압니다. (매우 쉬움)
  • 수학 (Math): "양파 3 개를 2 개로 나누면 1.5 개"라는 계산도 정확히 합니다. (매우 쉬움)

이 요리사는 각각의 작업은 혼자서 완벽하게 해냅니다. 하지만, 이 두 가지를 섞어서 "양파 껍질을 벗긴 후, 남은 양파를 2 개로 나누어 요리하세요"라고 말하면 어떨까요?

놀랍게도 이 요리사는 혼란에 빠져서 양파를 제대로 나누지 못하거나, 아예 껍질을 벗기는 것을 잊어버리고 수학적 계산만 하거나, 반대로 계산은 안 하고 껍질만 벗기는 실수를 합니다.

이 논문은 바로 이 현상을 연구했습니다. "AI 는 각각의 일은 잘하는데, 서로 다른 종류의 일 (상식 + 수학) 을 섞어서 한 번에 하라고 하면 왜 그렇게 무너지는 걸까?"

2. 🔍 실험 내용: 61 명의 'AI 요리사'를 테스트하다

연구팀은 AgentCoMa라는 새로운 시험지를 만들었습니다.

  • 시험지 특징: 모든 문제는 상식 문제수학 문제가 하나로 합쳐져 있습니다.
    • 예시: "식당에서 햄버거 (상식: 햄버거는 먹을 수 있음) 와 돌 (상식: 돌은 먹을 수 없음) 이 있습니다. 먹을 수 있는 것 20 개를 사려면 얼마가 들까요? (수학: 가격 계산)"
  • 참가자: 최신 AI 모델 61 개 (작은 것부터 거대한 것까지).
  • 결과:
    • AI 들은 상식 문제만 내면 85% 이상 맞췄습니다.
    • 수학 문제만 내면 85% 이상 맞췄습니다.
    • 하지만 두 가지를 섞어서 내면 정답률이 **약 42%**로 뚝 떨어졌습니다! (약 30% 이상 하락)

이건 마치 수학 천재가 "1+1=2"는 알지만, "1+1=2 인데, 그걸로 사과를 2 개 사면 얼마일까?"라고 물으면 "사과가 뭐야? 1+1=2 는 맞는데..."라며 당황하는 것과 비슷합니다.

3. 🤔 왜 이런 일이 일어날까? (AI 의 뇌를 들여다보다)

연구팀은 AI 가 왜 실패하는지 그 '뇌' (신경망) 를 분석했습니다.

  • 원인 1: 훈련 데이터의 부재
    AI 는 훈련할 때 '상식 문제'와 '수학 문제'를 따로따로 많이 봤습니다. 하지만 **"상식과 수학을 섞어서 해결하는 문제"**는 거의 본 적이 없습니다. 마치 오직 '한국어'와 '영어'만 따로 배운 학생에게 "한국어와 영어를 섞어서 문장을 만들어라"고 시키는 것과 같습니다. AI 는 익숙하지 않은 패턴에 당황하는 것입니다.

  • 원인 2: 뇌의 특정 부위만 작동함
    AI 의 뇌 (뉴런) 를 살펴보니, 문제를 풀 때 수학 부분만 활성화되고 상식 부분은 잠자는 경우가 많았습니다.

    • 비유: 자동차를 운전할 때 (상식), 브레이크 (수학) 만 밟고 핸들을 놓아버리는 꼴입니다. AI 는 "아, 수학 문제구나!"라고 생각하면 상식적인 판단을 잊어버리고 수학 계산만 하느라 엉뚱한 답을 내놓습니다.

4. 👨‍👩‍👧‍👦 인간은 어떨까?

흥미롭게도, **일반인 (비전문가)**에게 같은 문제를 풀게 했을 때는 AI 와 달리 혼합 문제와 개별 문제의 정답률 차이가 거의 없었습니다.
인간은 상식과 수학을 자연스럽게 섞어서 생각할 수 있지만, AI 는 아직 그 '연결 고리'가 약한 것입니다.

5. 💡 결론: AI 는 아직 '유연한 사고'가 부족하다

이 연구는 우리에게 중요한 메시지를 줍니다.

  • AI 는 단순한 계산이나 단순한 지식은 잘하지만, **실제 생활처럼 복잡한 상황 (상식 + 계산 + 상황 판단)**에서는 여전히 무겁고 깨지기 쉽습니다 (Brittle).
  • 앞으로 더 똑똑한 AI 를 만들려면, 단순히 지식을 더 쌓는 게 아니라 서로 다른 종류의 사고를 자연스럽게 연결하는 법을 가르쳐야 합니다.

한 줄 요약:

"AI 는 '상식'과 '수학'을 각각은 잘하지만, 둘을 섞으면 뇌가 혼란스러워져서 엉뚱한 답을 내놓습니다. 마치 **요리사에게 "양파 껍질을 벗기면서 동시에 3 곱하기 4 를 계산하라"**고 시켰을 때, 양파를 벗기는 건 잊어버리고 숫자만 외치는 꼴입니다. 이제 AI 는 이 두 가지를 동시에 잘할 수 있도록 훈련이 필요합니다."