Rewards as Labels: Revisiting RLVR from a Classification Perspective

이 논문은 RLVR 기반 강화학습에서 발생하는 그라디언트 할당 문제를 해결하기 위해 보상을 스칼라 가중치가 아닌 분류 레이블로 재해석한 'REAL' 프레임워크를 제안하며, 이를 통해 수학 추론 벤치마크에서 GRPO 및 DAPO 등 기존 최첨단 방법들보다 뛰어난 성능과 안정성을 입증했습니다.

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao + 3 more2026-03-05🤖 cs.LG

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

본 논문은 수학이나 코딩과 같은 형식적 추론에서 뛰어난 성능을 보이는 대형 추론 모델 (LRM) 이도 이론적 마음 (ToM) 과제에서는 오히려 성능이 저하되거나 선택지 매칭에 의존하는 등 기존 추론 방식만으로는 사회적 추론 능력을 확보하기 어렵다는 점을 규명하고, 이를 해결하기 위한 적응형 추론 및 단축 방지 기법을 제안합니다.

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

이 논문은 저자원 의료 환경 배포를 위해 소규모 오픈소스 LLM 들의 프롬프트 민감도와 답변 일관성을 평가한 결과, 일관성이 높다고 해서 정확도가 보장되는 것은 아니며, 특히 역할극 프롬프트는 정확도를 저하시키고 도메인 사전학습만으로는 지시 준수가 어렵다는 점을 밝혀 Llama 3.2 가 정확성과 신뢰성 측면에서 가장 균형 잡힌 성능을 보였음을 제시합니다.

Shravani Hariprasad2026-03-05🤖 cs.AI

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

이 논문은 정성적 콘텐츠 분석 원리를 통합하여 인플레이션 서사를 방향성 비순환 그래프 (DAG) 로 주석하고, 다양한 표현 방식과 거리 척도가 주석자 간 일치도에 미치는 영향을 분석함으로써 인간 라벨 변이 하의 그래프 기반 서사 주석 품질 향상을 위한 실용적 지침을 제시합니다.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

이 논문은 AI 생성 에세이 탐지기의 현황과 책임 있는 사용 가이드라인을 제시하고, GRE 쓰기 프롬프트를 기반으로 한 실증 분석을 통해 특정 LLM 으로 훈련된 탐지기가 다른 LLM 에서 생성된 에세이를 얼마나 잘 일반화하여 식별하는지 평가하여 실용적 적용을 위한 지침을 제공합니다.

Jiangang Hao2026-03-05💬 cs.CL

LaTeX Compilation: Challenges in the Era of LLMs

이 논문은 LLM 시대에 TeX 의 한계를 분석하고, 더 효율적인 데이터 구조와 렌더링을 제공하는 WYSIWYG 구조화 편집기인 Mogan STEM 과 그 문서 형식 (.tmu) 이 컴파일 성능 향상과 LLM 미세조정 효율성 증대 측면에서 TeX 보다 우월함을 실험을 통해 입증하며, 향후 .tmu 형식을 활용한 대규모 LLM 학습 실험을 촉구합니다.

Tianyou Liu, Ziqiang Li, Xurui Liu + 1 more2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

이 논문은 생성 및 평가 에이전트 간의 '제안 - 평가 - 수정' 협업 프로세스와 강화 학습을 통해 제로샷 문서 수준 이벤트 인자 추출의 데이터 생성 품질과 추출 성능을 동시에 향상시키는 다중 에이전트 협업 프레임워크를 제안합니다.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

이 논문은 의료 분야의 복잡한 추론에서 발생하는 환각과 지식 부재 문제를 해결하기 위해, 다중 라운드 에이전트 루프를 통해 외부 증거와 내부 추론을 반복적으로 정제하여 최종 합의에 도달하는 'MA-RAG' 프레임워크를 제안하고, 7 개 의료 Q&A 벤치마크에서 기존 방법론 대비 평균 정확도를 6.8 점 향상시킨 것을 입증합니다.

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

이 논문은 소규모 농가의 요구에 부합하는 정확한 농업 조언을 제공하기 위해 검증된 사실 기반의 미세 조정과 안전성 고려 응답 생성 레이어를 결합한 하이브리드 LLM 아키텍처와 DG-EVAL 평가 프레임워크를 제안하고, 이를 통해 비용 효율적이면서도 사실적 정확도와 안전성을 크게 향상시킨 결과를 보여줍니다.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

이 논문은 인지 과학에 영감을 받아 에피소드 기억을 지식 중심의 그래프로 구조화하여, 다양한 LLM 에이전트에 부착 가능한 범용 메모리 모듈 'PlugMem'을 제안하고, 이를 통해 작업별 재설계 없이도 효율적인 정보 검색과 추론을 가능하게 함으로써 기존 작업 특화 및 범용 메모리 설계보다 우수한 성능을 입증했습니다.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI