Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Each language version is independently generated for its own context, not a direct translation.

🍕 비유: "피자 배달 AI"와 "배달비"

상상해 보세요. 여러분은 거대한 **데이터 피자 공장 (클라우드 데이터베이스)**이 있습니다. 이 공장은 피자를 만들 때 **사용한 재료의 양 (스캔한 데이터 양)**만큼 돈을 받습니다.

여기서 두 명의 주문 대행 AI가 있습니다.

평범한 AI (비추론 모델): "빨리 주문해!"라고 하면 바로 주문하지만, 가끔 필요 없는 재료를 다 넣거나, 창고 전체를 뒤져서 피자를 찾기도 합니다.
똑똑한 AI (추론 모델): 주문하기 전에 잠시 생각하며 ("어떤 피자가 필요하지? 창고의 어느 구석에 있을까?") 계획을 세운 뒤 주문합니다.

이 연구는 이 두 AI 가 180 번의 주문을 했을 때, 누가 더 적은 재료비 (클라우드 비용) 를 썼는지 비교했습니다.

🔍 핵심 발견 4 가지

1. "생각하는 시간"이 돈을 아껴줍니다 (44.5% 절감)

비유: 평범한 AI 는 "전체 창고를 다 뒤져서 피자를 찾아와!"라고 명령해서, 필요한 피자 한 조각만 가져오는데도 창고 전체를 뒤지는 비효율을 일으켰습니다. 반면, 똑똑한 AI는 "창고 3 층의 A 구역에 있는 피자만 가져와"라고 정확히 지시했습니다.
결과: 똑똑한 AI 가 만든 명령어는 재료비 (데이터 처리 비용) 를 44.5%나 아꼈습니다. 비록 AI 가 생각하느라 1 초 정도 더 걸렸지만, 그로 인해 아낀 돈이 훨씬 컸습니다.

2. "빠른 것"이 "싼 것"을 의미하지는 않습니다

비유: 어떤 배달 아저씨가 "도착이 1 분 걸려요!"라고 해서 빠르다고 해서, 그 아저씨가 태운 화물이 가볍다는 뜻은 아닙니다. 오히려 거대한 트럭을 몰고 와서 1 분 만에 도착했을 수도 있죠.
결과: 연구진은 "실행 시간 (속도)"과 "비용 (재료비)"은 거의 상관관계가 없다는 사실을 발견했습니다. (상관관계 0.16)
- 중요한 점: "이 쿼리가 1 초 만에 끝났으니 돈도 적게 들겠지?"라고 생각하면 큰 낭비를 하게 됩니다. 아주 빠르게 실행되더라도, 불필요하게 많은 데이터를 스캔했다면 엄청난 비용이 청구될 수 있습니다.

3. "평범한 AI"는 비용이 들쑥날쑥합니다 (변동성)

비유: 평범한 AI 는 대부분의 주문은 괜찮았지만, 가끔은 거대한 트럭을 불러와서 피자 한 조각만 배달하는 실수를 저질렀습니다. 어떤 주문은 1,800 원 (1.8GB) 이 들었는데, 어떤 주문은 36,000 원 (36GB) 이 들었습니다. (최대 3.4 배 차이)
결과: 똑똑한 AI 는 비용이 일정하게 유지되는 반면, 평범한 AI 는 예측 불가능하게 비용이 폭등할 위험이 큽니다. 기업 입장에서는 "오늘은 10 원, 내일은 100 만 원"이 나올 수 있는 위험한 상황입니다.

4. AI 가 자주 저지르는 실수 (비효율 패턴)

AI 들이 만든 명령어에서 자주 발견된 실수들은 다음과 같습니다:

SELECT * (모든 것 가져오기): "필요한 피자 조각만 가져와" 대신 "창고에 있는 모든 피자를 다 가져와"라고 명령하는 실수.
분할 필터 누락: "2020 년에 만든 피자만"이라고 특정해야 하는데, "2008 년부터 2022 년까지 전체 피자를 뒤져라"라고 명령하는 실수.
불필요한 조인: 필요 없는 테이블까지 연결해서 데이터를 섞는 실수.

💡 이 연구가 우리에게 주는 교훈

속도보다 '생각'을 선택하세요: 데이터 분석 작업에서는 조금 더 생각하는 AI(추론 모델) 를 쓰는 것이, 나중에 청구서에서 훨씬 더 큰 돈을 아껴줍니다.
속도만 믿지 마세요: "빠르게 끝났으니 OK"라고 생각하지 말고, **"얼마나 많은 데이터를 스캔했는지"**를 반드시 확인해야 합니다.
비용 방호벽을 세우세요: AI 가 너무 비싼 명령어를 만들지 않도록, 실행 전에 "이 명령어가 100 달러 이상 들면 실행하지 마!"라는 규칙을 만들어야 합니다.

📝 한 줄 요약

"AI 가 SQL 을 만들 때, '빨리' 만드는 것보다 '생각해서' 정확하게 만드는 것이 클라우드 비용을 44% 이상 아껴주며, 속도가 빠르다고 해서 돈이 적게 드는 것은 아닙니다."

이 연구는 기업들이 AI 를 도입할 때, 단순히 정확도나 속도만 보지 말고 **실제 클라우드 비용 (돈)**까지 고려해야 한다는 중요한 메시지를 전달합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

현황: Text-to-SQL 시스템은 스파이더 (Spider) 나 BIRD 와 같은 벤치마크에서 높은 정확도를 달성하고 있으나, 기존 효율성 지표 (예: 유효 효율성 점수, VES) 는 주로 로컬 데이터베이스에서의 실행 시간에 초점을 맞추고 있습니다.
핵심 문제: 클라우드 데이터 웨어하우스 (Google BigQuery, Snowflake 등) 는 **처리된 데이터 바이트 수 (Bytes Scanned)**에 따라 과금되는 소비 기반 (Consumption-based) 가격 모델을 사용합니다.
발견: 실행 시간과 클라우드 쿼리 비용은 약한 상관관계 (r=0.16) 만 보입니다. 즉, 실행이 빠른 쿼리가 반드시 비용 효율적인 것은 아니며, 기존 벤치마크 지표는 클라우드 환경의 실제 재정적 위험을 반영하지 못합니다.
목표: 생성된 SQL 쿼리의 클라우드 실행 비용을 체계적으로 평가하고, 추론형 (Reasoning) 과 비추론형 (Non-reasoning) LLM 간의 비용 효율성을 비교 분석하는 것입니다.

2. 방법론 (Methodology)

실험 환경:
- 플랫폼: Google BigQuery (소비 기반 과금 모델 적용).
- 데이터셋: StackOverflow 공개 데이터셋 (약 230GB, 597M 행).
- 모델: 6 가지 최신 LLM 평가 (3 개 추론형, 3 개 표준형).
  - 추론형: Opus 4.5R (Anthropic), GPT-5.2R (OpenAI), Gemini ProR (Google).
  - 표준형: Sonnet 4.5 (Anthropic), GPT-5.1 (OpenAI), Gemini Flash (Google).
- 워크로드: 30 개의 자연어 질문 (단순, 중간, 복잡 3 단계) 을 각 모델에 입력하여 총 180 회 쿼리 실행.
측정 지표:
- 주요 비용 지표: 처리된 바이트 (Bytes Processed), 예상 비용 (Estimated Cost).
- 성능 지표: 실행 시간, 슬롯 사용량 (Slot Seconds), 셔플 데이터 (Shuffled Bytes).
- 정확도: 구문 및 의미적 정확성 검증.
- 비효율 패턴 분석: SELECT *, 파티션 필터 누락, 불필요한 조인 등 SQL 안티패턴 식별.
제어 조건: 쿼리 캐싱 비활성화, 제로샷 (Zero-shot) 프롬프트 사용 (최적화 힌트 제거).

3. 주요 기여 (Key Contributions)

클라우드 네이티브 비용 평가 방법론 도입: 처리된 바이트 수와 예상 비용을 측정하여 Text-to-SQL 시스템의 실제 클라우드 비용을 평가하는 새로운 프레임워크 제시.
추론형 모델의 비용 우위 입증: 6 개 모델에 대한 실증적 평가를 통해 추론형 모델이 정확도를 유지하면서 클라우드 컴퓨팅 비용을 44.5% 절감함을 증명.
비용 변동성 및 아웃라이어 분석: 모델 간 평균 쿼리 비용 편차가 최대 3.4 배까지 발생하며, 일부 모델은 단일 쿼리당 36GB 이상의 데이터를 스캔하는 극단적인 비용 아웃라이어를 생성함을 규명.
비효율 패턴 식별 및 가이드라인 제시: 파티션 필터 누락 (적용 가능 쿼리의 50% 에서 발생), 불필요한 전체 테이블 스캔 등 LLM 이 생성하는 SQL 의 일반적인 비효율 패턴을 분석하고, 기업 환경에서의 배포 가이드라인을 제공.

4. 실험 결과 (Results)

비용 효율성:
- 추론형 모델은 평균 2,140 MB의 데이터를 처리한 반면, 표준형 모델은 3,857 MB를 처리하여 44.5% 의 비용 절감 효과를 보임.
- 예상 비용은 추론형이 쿼리당 약 $0.0134**, 표준형은 **$ 0.0241로 추론형이 더 저렴함.
- 통계적 유의성: p-value = 0.003, 효과 크기 (Cohen's d) = 0.52 (중간 크기).
정확도:
- 6 개 모델 중 5 개가 100% 정확도를 달성했으며, 나머지 1 개 (GPT-5.1) 도 96.7% 의 높은 정확도를 보임. 정확도 차이가 크지 않으므로 효율성이 주요 차별화 요소가 됨.
실행 시간 vs 비용:
- 처리된 바이트와 실행 시간 간의 상관관계는 r = 0.16으로 매우 약함. 이는 "빠른 쿼리 = 저렴한 쿼리"라는 가정이 클라우드 환경에서 성립하지 않음을 의미.
모델별 변동성 (Variance):
- 표준형 모델 (특히 GPT-5.1) 은 비용 변동성이 매우 큼 (표준편차 11,659 MB). 일부 쿼리는 36GB 이상의 데이터를 스캔하여 비용이 급증함.
- 추론형 모델은 더 일관된 비용 행동을 보임 (변동 계수 CV 가 낮음).
SQL 비효율 패턴:
- 파티션 필터 누락: 가장 흔한 문제. 날짜 기반 필터링이 필요한 쿼리 중 50% 에서 파티션 필터를 적용하지 않아 전체 테이블 스캔을 유발.
- *SELECT : 필요한 컬럼만 선택하지 않고 전체 컬럼을 스캔하는 패턴 발생.
- 추론형 모델이 파티션 필터 적용률 (89%) 과 명시적 컬럼 리스트 사용률 (97%) 에서 표준형 모델보다 우수함.

5. 의의 및 시사점 (Significance & Implications)

비용 최적화 전략: 데이터 집약적인 애플리케이션에서는 추론이 느리더라도 추론형 모델을 사용하는 것이 총 소유 비용 (TCO) 측면에서 더 유리함.
지표의 재정의: 클라우드 배포 환경에서는 실행 시간이 아닌 처리된 바이트 수와 예상 비용을 주요 효율성 지표로 사용해야 함.
FinOps 가이드라인:
- 추론형 모델 선호.
- 실행 전 비용 추정 및 거절 임계값 (Cost Guardrails) 설정.
- SELECT *, 파티션 필터 누락 등 비효율 패턴에 대한 자동 감지 시스템 도입.
연구 방향: 기존 벤치마크 (Spider, BIRD 등) 가 정확도와 로컬 실행 시간만 평가하는 한계를 극복하고, 클라우드 비용 효율성을 포함한 새로운 평가 기준의 필요성을 제시.

이 논문은 Text-to-SQL 기술이 연구 단계를 넘어 실제 기업 환경에 적용될 때, 정확도뿐만 아니라 클라우드 과금 모델에 따른 비용 효율성이 핵심 성공 요인임을 강조하며, 추론형 LLM 의 경제적 가치를 입증한 중요한 연구입니다.