Runtime Burden Allocation for Structured LLM Routing in Agentic Expert Systems: A Full-Factorial Cross-Backend Methodology

이 논문은 구조화된 LLM 라우팅을 프롬프트 엔지니어링 문제가 아닌 시스템 수준의 부하 분배 문제로 재정의하고, 48 가지 배포 구성과 15,552 개의 요청에 대한 풀-팩토리얼 벤치마크를 통해 백엔드별 상호작용 효과가 성능을 결정하므로 단일 최적 방식은 존재하지 않으며 이질적인 백엔드 환경에서 정확성, 비용, 지연 시간의 균형을 위한 실용적 배포 프레임워크를 제시합니다.

Zhou Hanlin, Chan Huah Yong

게시일 2026-04-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍽️ 비유: "요리사 (AI) 와 주문서 (시스템)"의 관계

이 논문이 다루는 주제는 다음과 같습니다:

  • 고객의 주문 (질문): "오늘 저녁 뭐 먹지?"
  • 요리사 (AI): 주문을 듣고 메뉴를 추천하는 거대한 두뇌.
  • 주문서 (구조화된 출력): 요리사가 작성해야 하는 최종 지시서. (예: "메뉴: 김치찌개, 테이블: 3 번, 주방: A 구역")

기존에는 "요리사 (AI) 가 얼마나 똑똑한가?"만 중요하게 여겼습니다. 하지만 이 논문은 **"요리사가 주문서를 쓰는 방식과 그 주문서를 전달받는 방식"**이 훨씬 더 중요하다고 말합니다.

🔍 핵심 발견: "하나의 정답은 없다"

이 연구는 3 가지 다른 요리사 (OpenAI, Gemini, Llama) 에게 같은 주문을 시켰고, 주문서를 작성하는 4 가지 다른 방식을 실험했습니다. 결과는 놀라웠습니다.

"어떤 방식이 가장 좋은지는 요리사 (AI) 가 누구냐에 따라 완전히 달라집니다."

1. 상황별 최적의 전략 (비유)

  • A 요리사 (Gemini, OpenAI):

    • 이 요리사들은 **정확한 주문서 (JSON)**를 직접 작성하는 것을 가장 잘합니다.
    • 전략: "요리사에게 직접 완벽하게 적어달라." (직접 JSON 출력)
    • 결과: 실수가 거의 없고, 시스템이 안정적입니다.
  • B 요리사 (Llama):

    • 이 요리사는 **짧은 메모 (압축된 코드)**만 적어주는 것은 잘하지만, 그것을 다시 완벽한 주문서로 바꾸는 과정에서 혼란을 겪습니다.
    • 전략: "요리사에게 짧은 메모만 적게 하고, 우리가 그걸 주문서로 만들어라." (압축 후 로컬 재구성)
    • 결과: 속도는 매우 빠르고 비용은 싸지만, 실수가 폭증합니다. (예: "김치찌개"를 "김치볶음밥"으로 잘못 적음)

2. 중요한 교훈: "속도보다 정확성이 먼저다"

많은 회사가 "비용을 아끼고 속도를 내자!"라고 해서 AI 가 짧은 메모만 적게 하거나 (압축), 실시간으로 글자를 하나씩 띄워주게 (스트리밍) 합니다.

하지만 이 논문은 말합니다:

"시스템이 멈추지 않으려면, 주문서가 완성될 때까지 기다려야 합니다."

  • 스트리밍 (실시간 출력): 요리사가 "김치... 찌개..."라고 하나씩 말해도, 주방은 "김치찌개"라는 전체 주문서가 완성되기 전에는 요리를 시작할 수 없습니다. 따라서 실시간으로 보여주는 것은 고객에게는 편할지 몰라도, 시스템 운영에는 큰 도움이 되지 않습니다.
  • 비용 절감의 함정: Llama 같은 모델은 짧은 메모를 쓰게 하면 비용이 70% 이상 줄지만, 실수율이 60% 이상 폭등합니다. 결국 잘못된 주문으로 인해 다시 요리해야 하는 비용이 더 듭니다.

💡 이 논문이 주는 3 가지 실전 조언 (Deployment Rules)

이 연구를 바탕으로 시스템 설계자들이 따라야 할 3 가지 규칙을 제안합니다.

  1. 정확성이 생명이라면, "완벽한 주문서"를 요구하세요.

    • (OpenAI, Gemini 사용 시) AI 에게 직접 깔끔한 주문서 (JSON) 를 작성하게 하세요. 비용이 좀 더 들더라도 실수를 막을 수 있습니다.
  2. 속도와 비용을 아끼려면, "호환성"을 먼저 확인하세요.

    • (Llama 등 오픈소스 모델 사용 시) AI 가 짧은 메모만 적게 하려면, 그 모델이 그 방식으로도 실수 없이 작동하는지 반드시 테스트해야 합니다. 무작정 적용하면 시스템이 망가집니다.
  3. 실시간 출력 (스트리밍) 에 집착하지 마세요.

    • 시스템이 다음 작업을 시작하려면 완전한 주문서가 필요합니다. 글자가 하나씩 나타나는 것을 보여준다고 해서 시스템이 빨라지지 않습니다.

📝 한 줄 요약

"인공지능을 시스템의 지시자로 쓸 때는, '어떤 AI 가 가장 똑똑한가'보다 '어떤 AI 에게 어떤 방식으로 지시서를 전달하는가'가 훨씬 중요합니다. AI 모델마다 최적의 지시 방식이 다르니, 무작정 따라 하지 말고 실험을 통해 맞는 조합을 찾아야 합니다."

이 논문은 단순히 AI 성능을 비교한 것이 아니라, 실제 비즈니스 현장에서 AI 를 어떻게 안정적으로 운영할지에 대한 구체적인 설계 도구를 제공한 것입니다.