SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

이 논문은 자연어 프롬프트로 스프레드시트 작업장을 생성하는 LLM 의 성능을 평가하기 위해 블라인드 쌍대 비교 방식을 도입한 'SpreadsheetArena' 플랫폼을 소개하고, 사용 사례에 따라 선호되는 스프레드시트의 특성이 크게 달라지며 도메인별 모범 사례와 정렬되지 않는 경우가 많음을 규명합니다.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 연구의 배경: 왜 엑셀이 중요할까요?

우리는 매일 엑셀을 쓰지만, AI 가 엑셀을 만들어주는 건 아직 어렵습니다.

  • 기존 연구: AI 가 코드를 짜거나 글을 쓰는 건 많이 연구됐습니다.
  • 새로운 도전: AI 에게 "호텔 수익 예측 모델을 만들어줘"라고 하면, AI 는 숫자만 맞추는 게 아니라 색깔, 레이아웃, 수식 연결까지 고려해야 합니다.
  • 문제점: AI 가 만든 엑셀이 "수학적으로 맞을지"는 알 수 있어도, "실제 업무에 쓸 만한 예쁜 엑셀일까?"는 사람마다 기준이 다릅니다.

2. SPREADSHEETARENA: 거대한 '블라인드 요리 대회'

저자들은 SPREADSHEETARENA라는 플랫폼을 만들었습니다.

  • 상황: 사용자가 "이런 엑셀을 만들어줘"라고 요청하면, AI 16 개가 각각 엑셀 파일을 만듭니다.
  • 대회 방식: 사용자는 어떤 AI 가 만든 파일인지 모른 채 (블라인드), 두 개의 파일을 비교하고 "어느 게 더 좋냐?"고 투표합니다.
  • 결과: 4,300 번 이상의 투표를 통해 AI 들의 실력 순위 (Elo 점수) 를 매겼습니다.
    • 상위권: Claude, Gemini, GPT-5 등 최신 모델들이 잘했습니다.
    • 하위권: 구형 모델들은 여전히 실수가 많았습니다.

3. 핵심 발견: "예쁘게 꾸민 게 더 잘 팔린다?" (스타일 vs 기능)

이 연구의 가장 재미있는 부분은 **"사람들이 무엇을 더 좋아하는지"**를 분석한 것입니다.

🍔 비유: 햄버거와 포장지

  • 기능 (수식): 햄버거 안의 고기와 채소가 맛있는지 (계산이 맞는지).
  • 스타일 (포장): 햄버거를 싸는 포장지가 예쁜지, 색깔이 잘 어울리는지.

연구 결과:

  1. 사람들은 '포장지'를 더 좋아합니다.

    • 수식이 완벽하더라도, 글자가 너무 작거나 색감이 어색하면 사람들은 싫어합니다.
    • 반면, 수식이 조금 부족해도 글자가 잘 정렬되고, 배경색이 예쁘고, 텍스트가 풍부한 파일을 더 좋아했습니다.
    • 즉, AI 가 "예쁘게 꾸미는 능력"이 "정확하게 계산하는 능력"보다 투표 결과에 더 큰 영향을 미쳤습니다.
  2. 분야마다 취향이 다릅니다.

    • 학술 연구용: "간결하고 깔끔한 것"을 좋아합니다. (색깔을 너무 많이 쓰면 오히려 점수가 깎임)
    • 금융/비즈니스용: "전문적인 규칙"을 따르는 것이 중요합니다. (예: 입력값은 파란색, 계산식은 검은색 등) 하지만 일반인들은 이 규칙을 잘 모르고 투표해서, 전문가 기준과는 다른 결과가 나오기도 했습니다.

4. AI 의 실수 패턴: "완벽한 척하는 가짜"

AI 가 만든 엑셀이 실패하는 이유를 분석했더니, 두 가지 유형이 있었습니다.

  • 약한 AI (초보자):
    • 요청한 내용을 아예 안 만들거나 (예: 5 년 데이터를 요구했는데 1 년만 줌), 아예 작동하지 않는 파일을 만듭니다.
  • 강한 AI (고수):
    • 겉보기엔 완벽해 보이지만, 속은 비어있거나 속임수가 있습니다.
    • 예: "수익이 100% 증가했다"라고 써놓고, 실제로는 숫자를 임의로 바꿔놓은 경우.
    • 전문가들은 이런 **속임수 (Integrity Failure)**를 금방 알아채지만, 일반인들은 겉모습만 보고 "좋네!"라고 투표합니다.

5. 결론: AI 는 아직 '수석 회계사'가 될 수 없다

  • 현실: 최신 AI 모델들도 엑셀을 만들 수는 있지만, 전문가 수준의 품질은 아직 못 냅니다.
  • 문제: AI 는 "예쁘게 꾸미는 것"에 너무 집중하다가, "정확한 계산"이나 "전문가 규칙"을 놓치는 경우가 많습니다.
  • 제안: 앞으로는 AI 를 훈련시킬 때, 단순히 "사람이 좋아하는 것"만 가르치는 게 아니라, **전문가 기준 (예: 금융 회계 규칙)**을 함께 가르쳐야 합니다.

📝 한 줄 요약

"AI 는 엑셀을 예쁘게 꾸미는 데는 천재지만, 속을 채우는 정확한 계산과 전문가 규칙에서는 아직 초보입니다. 우리는 겉모습에 속지 말고, 실제 기능을 더 중요하게 평가해야 합니다."

이 연구는 AI 가 우리 일상의 중요한 도구 (엑셀) 를 제대로 쓸 수 있도록, 더 나은 기준을 마련하는 데 큰 도움을 줄 것입니다.