What Scales in Cross-Entropy Scaling Law?

이 논문은 교차 엔트로피 스케일링 법칙이 대규모에서 무너지는 원인을 규명하기 위해 교차 엔트로피를 세 가지 구성 요소로 분해한 결과, 실제로는 '오류 엔트로피 (Error-Entropy)'만이 강력한 멱법칙을 따르며 모델 크기가 커질수록 그 비중이 감소한다는 사실을 발견하여 더 정확한 모델 행동 설명을 제시했습니다.

Junxi Yan, Zixi Wei, Qingyao Ai + 2 more2026-03-03💬 cs.CL

PoLi-RL: A Point-to-List Reinforcement Learning Framework for Conditional Semantic Textual Similarity

이 논문은 기존 방법론의 한계를 극복하고 조건부 의미적 텍스트 유사성 (C-STS) 작업에서 새로운 최첨단 성능을 달성하기 위해, 점별 보상으로 기초를 다진 후 병렬 슬라이스 순위 보상 (PSRR) 메커니즘을 활용한 점 - 리스트 강화 학습 (PoLi-RL) 프레임워크를 제안합니다.

Zixin Song, Bowen Zhang, Qian-Wen Zhang + 3 more2026-03-03💬 cs.CL

Training Large Language Models To Reason In Parallel With Global Forking Tokens

이 논문은 다양한 추론 경로를 보존하고 전역 분기 토큰을 유도하기 위해 쌍대 매칭을 기반으로 한 집합 기반 손실 함수를 도입한 'Set Supervised Fine-Tuning (SSFT)'과 이를 활용한 'Global Forking Policy Optimization (GFPO)'을 제안하여, 수학 추론 및 코드 생성 벤치마크에서 기존 모델보다 우수한 성능을 입증했습니다.

Sheng Jia, Xiao Wang, Shiva Prasad Kasiviswanathan2026-03-03💬 cs.CL

LAD-RAG: Layout-aware Dynamic RAG for Visually-Rich Document Understanding

이 논문은 시각적으로 풍부한 문서의 구조적 조직과 교차 페이지 의존성을 포착하는 심볼릭 문서 그래프를 구축하고 추론 시 LLM 에이전트를 통해 적응적으로 증거를 검색하는 새로운 레이아웃 인식 동적 RAG 프레임워크인 'LAD-RAG'를 제안하여 기존 방법의 한계를 극복하고 질문 응답 정확도를 크게 향상시킨다고 설명합니다.

Zhivar Sourati, Zheng Wang, Marianne Menglin Liu + 8 more2026-03-03💬 cs.CL

ExPO-HM: Learning to Explain-then-Detect for Hateful Meme Detection

이 논문은 hateful meme 탐지의 한계를 극복하고 설명 기반 탐지를 통해 성능과 해석 가능성을 동시에 향상시키기 위해, 인간 주석자의 평가 과정을 모방한 SFT 워밍업, 커리큘럼 학습이 적용된 GRPO, 그리고 추론 품질을 위한 조건부 결정 엔트로피 (CDE) 를 결합한 'ExPO-HM' 프레임워크를 제안합니다.

Jingbiao Mei, Mingsheng Sun, Jinghong Chen + 4 more2026-03-03💬 cs.CL

Reliable Fine-Grained Evaluation of Natural Language Math Proofs

이 논문은 LLM 이 생성한 자연어 수학 증명에 대한 신뢰할 수 있는 세밀한 평가가 부재하다는 문제를 해결하기 위해, 전문가가 주석한 ProofBench 데이터셋을 기반으로 ProofGrader 라는 고도화된 평가 모델을 개발하여 증명의 질을 정밀하게 측정하고 하류 작업의 성능을 크게 향상시킨다는 것을 보여줍니다.

Wenjie Ma, Andrei Cojocaru, Neel Kolhe + 6 more2026-03-03💬 cs.CL

ScholarEval: Research Idea Evaluation Grounded in Literature

이 논문은 기존 문헌에 기반하여 연구 아이디어의 타당성과 기여도를 평가하는 'ScholarEval' 프레임워크와 이를 검증하기 위해 구축된 전문가 주석 데이터셋 'ScholarIdeas'를 소개하며, 인간 전문가의 평가 기준을 더 잘 반영하고 기존 최첨단 모델보다 우수한 성능을 보임을 입증합니다.

Hanane Nour Moussa, Patrick Queiroz Da Silva, Daniel Adu-Ampratwum + 7 more2026-03-03💬 cs.CL

Rethinking On-policy Optimization for Query Augmentation

이 논문은 강력한 대규모 언어 모델을 활용한 훈련 없는 쿼리 증강이 비용이 많이 드는 강화 학습 기반 방법과 동등하거나 더 나은 성능을 보인다는 사실을 규명하고, 이를 바탕으로 프롬프팅의 유연성과 강화 학습의 최적화 능력을 결합한 새로운 하이브리드 방법인 OPQE 를 제안하여 기존 방식들을 능가하는 성능을 입증합니다.

Zhichao Xu, Shengyao Zhuang, Xueguang Ma + 5 more2026-03-03💬 cs.CL