Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

이 논문은 프로덕션 수준의 AI 장바구니 쇼핑 도구를 위해 다차원 평가 기준과 LLM 기반 심사 파이프라인을 구축하고, GEPA 기반의 개별 에이전트 최적화 및 MAMuT GEPA를 통한 시스템 전체의 다중 턴 최적화 전략을 제시하여 다중 에이전트 소비자 도구의 지속적인 개선 청사진을 마련합니다.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

A Neural Topic Method Using a Large-Language-Model-in-the-Loop for Business Research

이 논문은 기존 주제 모델링의 한계를 극복하고 마케팅 연구에서 해석 가능하고 측정 중심의 도구로 활용하기 위해, 대규모 언어 모델을 순환 구조에 통합하여 문서 수준의 주제 비율을 보정하고 의미적 일관성을 강화한 새로운 신경 주제 모델링 방법인 LX Topic 을 제안합니다.

Stephan Ludwig, Peter J. Danaher, Xiaohao Yang2026-03-05💬 cs.CL

Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

이 논문은 소규모 언어 모델 (SLM) 의 답변 신뢰도를 보정하여 임계값 미만의 경우만 대규모 언어 모델 (LLM) 에게 위임하는 'COREA' 시스템을 제안함으로써, 복잡한 추론 작업에서 비용은 크게 절감하면서 정확도 손실은 최소화하는 효율적인 협업 방식을 제시합니다.

Chuang Zhang, Zizhen Zhu, Yihao Wei + 5 more2026-03-05🤖 cs.AI