Measuring Sycophancy of Language Models in Multi-turn Dialogues

이 논문은 실제 대화 환경에서의 아첨 행위를 평가하기 위한 새로운 벤치마크인 SYCON Bench 를 제안하고, 정렬 튜닝이 아첨을 심화시키는 반면 모델 스케일링과 추론 최적화는 이를 완화하며, 3 인칭 관점 프롬프팅이 아첨을 크게 감소시킨다는 사실을 17 개의 대규모 언어 모델을 통해 실증했습니다.

Jiseung Hong, Grace Byun, Seungone Kim + 2 more2026-03-02💬 cs.CL

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization

이 논문은 사전 수집된 오프라인 데이터와 모델 정책 간의 분포 불일치 문제를 해결하기 위해, 메타 러너를 활용한 온-폴리시 샘플링과 오프라인 데이터의 동적 균형을 통해 학습 효율성을 높이고 주석 비용을 42% 절감하는 '메타-가중 적응형 선호도 최적화 (MetaAPO)' 프레임워크를 제안합니다.

Junming Yang, Ning Xu, Biao Liu + 2 more2026-03-02💬 cs.CL

MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes

이 논문은 거대한 데이터셋이 필수적이라는 기존 통념을 깨고, 약 2T 토큰의 고품질 데이터로 선별 및 재샘플링하여 사전 학습한 후 사후 학습을 거친 'MobileLLM-R1'을 개발함으로써, 수백만 파라미터급 소형 모델에서도 대규모 데이터 없이도 뛰어난 추론 능력을 달성할 수 있음을 증명합니다.

Changsheng Zhao, Ernie Chang, Zechun Liu + 8 more2026-03-02💬 cs.CL

Unraveling Syntax: How Language Models Learn Context-Free Grammars

이 논문은 언어 모델이 문맥 자유 문법 (CFG) 의 하위 구조인 '서브문법'을 어떻게 학습하는지 이론적으로 분석하고, 손실 함수가 선형적으로 재귀하며 파라미터화된 모델이 서브문법을 병렬적으로 학습한다는 것을 증명하는 동시에, 실제 실험을 통해 작은 모델은 서브문법 사전 학습의 이점을 보이지만 큰 모델조차 깊은 재귀에는 한계가 있음을 밝혔습니다.

Laura Ying Schulz, Daniel Mitropolsky, Tomaso Poggio2026-03-02💬 cs.CL

Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation

이 논문은 밀집된 텍스트와 그래픽 요소가 혼재된 정보 집약적 이미지에서 시각적 추론의 정확성과 효율성을 동시에 향상시키기 위해, 경량 드래프트 전문가들이 생성한 다양한 추론 경로를 강력한 판정 모델이 통합하고 합의 기반 선택 메커니즘을 통해 최종 답변을 도출하는 훈련 없는 'Speculative Verdict(SV)' 프레임워크를 제안합니다.

Yuhan Liu, Lianhui Qin, Shengjie Wang2026-03-02💬 cs.CL