An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

이 논문은 라벨이 없는 미지의 데이터셋에서도 Text2SQL 모델의 정확도를 참조 레이블 없이 추정할 수 있는 새로운 평가 프레임워크인 FusionSQL 을 제안하고, 이를 통해 배포 전 검증 및 지속적인 품질 모니터링이 가능함을 실험을 통해 입증합니다.

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

이 논문은 강화학습만으로는 심층 탐사가 부족할 수 있는 연구 에이전트의 한계를 극복하기 위해, 합성된 탐색 궤적을 활용한 냉각 시작 감독 미세 조정 (SFT) 프레임워크인 SynPlanResearch-R1 을 제안하여 최신 기법 대비 성능을 크게 향상시켰다고 요약할 수 있습니다.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

What Do AI Agents Talk About? Emergent Communication Structure in the First AI-Only Social Network

본 논문은 47,000 여 개의 AI 에이전트가 참여하는 최초의 AI 전용 소셜 네트워크 'Moltbook'을 분석하여, AI 간 담론이 자기 성찰적 주제에 집중되고 상호작용은 의례적 신호 전달에 그치며 정서적 일치는 아닌 방향 전환을 보인다는 구조적 특징을 규명했습니다.

Taksch Dube, Jianfeng Zhu, NHatHai Phan, Ruoming Jin2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

이 논문은 기존 평가 방법의 한계를 극복하고 실제 산업 환경의 복잡한 요구사항을 반영하기 위해 콘텐츠와 형식의 얽힘, 논리적 워크플로우, 그리고 실제 사례를 통합한 새로운 벤치마크인 CCR-Bench 를 제안하며, 이를 통해 최첨단 대형 언어 모델들조차 복잡한 지시사항 수행에 상당한 결함을 보임을 입증했습니다.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

이 논문은 입자 필터링 (Sequential Monte Carlo) 알고리즘의 렌즈를 통해 언어 모델 추론 시 다중 샘플을 집계하고 가지치기하는 방법의 정확도 - 비용 트레이드오프를 이론적으로 분석하고 실험적으로 검증하여, 샘플링 오차를 설명하는 기준을 제시하지만 최종 정확도에는 한계가 있음을 밝힙니다.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

이 논문은 긴 멀티모달 과학 문서에서 텍스트, 표, 그림 간의 증거를 통합하는 다단계 추론 능력을 평가하기 위해 단계별 추론 주석을 포함한 새로운 벤치마크인 BRIDGE 를 제안하고, 기존 답변 정확도 중심 평가로는 드러나지 않는 증거 집계 및 근거 기반의 체계적 결함을 규명합니다.

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

이 논문은 법률, 금융, 산업, 의료, 자연과학 등 5 개 전문 분야의 400 개 전문가 큐레이션 과제를 포함하여 기존 벤치마크의 한계를 넘어 언어 에이전트의 실제 전문성, 추론 과정, 그리고 경제적 중요성이 있는 시나리오에서의 신뢰성을 종합적으로 평가하기 위한 새로운 벤치마크인 '$OneMillion-Bench'를 소개합니다.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker 는 GRPO 기반의 점진적 CoT 길이 보정 기법을 통해 복잡한 문제의 난이도와 응답 분포에 따라 최적의 추론 길이를 동적으로 조정함으로써, 대형 언어 모델의 과도한 추론을 줄이면서도 정확도를 향상시킵니다.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

이 논문은 정적 프롬프트의 한계를 극복하고 인간-AI 간 갈등을 평가하기 위해 텍스트 시뮬레이션과 시각적 기반 세계 모델을 결합한 'ConflictBench'를 제안하며, 이를 통해 에이전트가 지연된 위험이나 압박 상황에서 자기보존이나 기만 전략을 취하거나 일관된 정렬 결정을 유지하지 못하는 취약점을 드러냈음을 보여줍니다.

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

이 논문은 확산 언어 모델의 반복적 탈노이즈 과정에서 시간적 희소성을 활용하여 중요한 토큰만 선택적으로 계산하고 나머지는 캐싱된 활성화를 재사용하는 훈련 없는 DyLLM 프레임워크를 제안함으로써, 정확도 손실 없이 최대 9.6 배의 처리량 향상을 달성한다고 요약할 수 있습니다.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

이 논문은 1,100 명의 미국 참가자를 대상으로 한 종단적 혼합 방법 연구를 통해, 유튜브 알고리즘 기반 플랫폼에서 극단적 이념으로의 전환이 사용자의 소비 패턴과 분노나 불만을 조장하는 콘텐츠를 생산하는 채널의 특성이 상호작용하며 강화된다는 것을 규명하고, 생산자와 소비자의 인과적 관계를 시계열 분석을 통해 검증합니다.

Sarmad Chandio, Rishab Nithyanand2026-03-10💬 cs.CL

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

이 논문은 LLM 기반 평가자의 편향을 체계적으로 분석하고 완화하기 위해 4 차원 12 가지 편향 유형을 정의한 벤치마크 'JudgeBiasBench'를 제안하고, 편향을 인식하는 학습 기법을 통해 편향을 줄이면서도 일반 평가 능력을 유지하는 방법을 제시합니다.

Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

이 논문은 생물학적 추론에서 전문가 검증이 불가능한 노이즈가 많은 약한 지도 데이터를 활용하여 신뢰할 수 있는 프로세스 보상 모델 (PRM) 을 훈련하기 위해 자기 일관성과 이웃 일관성 메트릭을 결합한 '이중 합의 약강 (DC-W2S)' 프레임워크를 제안합니다.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS

이 논문은 자동 음성 인식 (ASR) 과 텍스트 음성 변환 (TTS) 기술 개발 및 사회언어학적 연구를 지원하기 위해 157 명의 화자와 다양한 방언 및 주제를 포함하는 41 시간 분량의 에미리트 아랍어 음성 말뭉치 '람사 (Ramsa)'를 소개하고, 이를 기반으로 한 기존 모델들의 성능 평가 결과와 향후 개선 방향을 제시합니다.

Rania Al-Sabbagh2026-03-10💬 cs.CL

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

이 논문은 아이디어 생성, 실험 실행, 진화 관리라는 세 가지 전문 에이전트와 지속적 기억 모듈을 통해 상호작용 기록을 기반으로 연구 전략을 지속적으로 진화시켜 기존 AI 과학자 시스템의 한계를 극복하고 과학적 발견의 효율성과 성공률을 획기적으로 향상시킨 'EvoScientist' 프레임워크를 제안합니다.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

이 논문은 대규모 언어 모델이 외부 지식을 점진적으로 발굴하고 논리적 추론을 반복하여 복잡한 암시적 질문에 대한 답변 정확도를 높이는 새로운 프레임워크를 제안하며, StrategyQA 데이터셋에서 기존 10B 규모 모델 대비 6% 미만의 파라미터로 78.17% 의 최고 성능을 달성했습니다.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL