Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

이 논문은 프로덕션 수준의 AI 장바구니 쇼핑 도구를 위해 다차원 평가 기준과 LLM 기반 심사 파이프라인을 구축하고, GEPA 기반의 개별 에이전트 최적화 및 MAMuT GEPA를 통한 시스템 전체의 다중 턴 최적화 전략을 제시하여 다중 에이전트 소비자 도구의 지속적인 개선 청사진을 마련합니다.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

A Neural Topic Method Using a Large-Language-Model-in-the-Loop for Business Research

이 논문은 기존 주제 모델링의 한계를 극복하고 마케팅 연구에서 해석 가능하고 측정 중심의 도구로 활용하기 위해, 대규모 언어 모델을 순환 구조에 통합하여 문서 수준의 주제 비율을 보정하고 의미적 일관성을 강화한 새로운 신경 주제 모델링 방법인 LX Topic 을 제안합니다.

Stephan Ludwig, Peter J. Danaher, Xiaohao Yang2026-03-05💬 cs.CL

Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

이 논문은 소규모 언어 모델 (SLM) 의 답변 신뢰도를 보정하여 임계값 미만의 경우만 대규모 언어 모델 (LLM) 에게 위임하는 'COREA' 시스템을 제안함으로써, 복잡한 추론 작업에서 비용은 크게 절감하면서 정확도 손실은 최소화하는 효율적인 협업 방식을 제시합니다.

Chuang Zhang, Zizhen Zhu, Yihao Wei + 5 more2026-03-05🤖 cs.AI

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

이 논문은 과학적 발견을 위한 생성적 추론 과정의 직접적인 모델링이 직면한 계산적 복잡성 장벽을 해결하기 위해, 분해된 하위 작업 학습과 동기 부여 계층적 탐색을 통해 복잡성을 지수에서 로그 수준으로 낮추는 MOOSE-Star 프레임워크와 대규모 학습 데이터셋 TOMATO-Star를 제안합니다.

Zonglin Yang, Lidong Bing2026-03-05🤖 cs.LG

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

이 논문은 복잡한 텍스트 처리 성능을 향상시키기 위해 중간 텍스트 구조를 명시적으로 생성하도록 유도하는 프롬프팅 기법 'Structure of Thought(SoT)'를 제안하고, 이를 평가하기 위해 6 개 과학 분야와 32 가지 구조 유형으로 구성된 최초의 벤치마크 'T2S-Bench'를 소개하며, 두 도구를 통해 대규모 언어 모델의 텍스트 구조화 및 추론 능력을 크게 개선할 수 있음을 입증합니다.

Qinsi Wang, Hancheng Ye, Jinhee Kim + 12 more2026-03-05🤖 cs.AI

Semantic Bridging Domains: Pseudo-Source as Test-Time Connector

이 논문은 소스 도메인이 알려지지 않고 타겟 도메인의 라벨이 없는 상황에서, 생성된 의사 소스 (pseudo-source) 를 직접적인 대체제가 아닌 소스와 타겟을 연결하는 의미적 다리 (semantic bridge) 로 활용하여 단계적 의미 정렬 (SSA) 을 수행하고, 계층적 특징 집계 (HFA) 와 신뢰도 인식 보완 학습 (CACL) 전략을 통해 도메인 적응 성능을 획기적으로 향상시키는 방법을 제안합니다.

Xizhong Yang, Huiming Wang, Ning Xu + 1 more2026-03-05💬 cs.CL

Coupling Local Context and Global Semantic Prototypes via a Hierarchical Architecture for Rhetorical Roles Labeling

이 논문은 법적, 의료, 과학 분야에서의 수사적 역할 라벨링 성능을 향상시키기 위해 국소적 문맥과 전역적 의미 원형을 계층적 아키텍처로 결합한 두 가지 방법론을 제안하고, 미국 연방대법원 판례에 대한 새로운 데이터셋 SCOTUS-Law 를 구축하여 검증했습니다.

Anas Belfathi, Nicolas Hernandez, Laura Monceaux + 4 more2026-03-05💬 cs.CL