CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

이 논문은 100 명의 정신건강 전문가와 협력하여 개발한 대규모 벤치마크 'CounselBench'를 통해 대형 언어 모델이 실제 정신건강 질문 응답에서 보이는 안전성 및 개인화 부족 등의 한계와 인간 전문가 평가의 중요성을 체계적으로 분석하고 있음을 제시합니다.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

이 논문은 시뮬레이션된 사용자로부터 검증 가능한 감정 보상을 활용하여 LLM 의 공감 능력을 극대화하는 새로운 강화학습 프레임워크인 RLVER 를 제안하고, 이를 통해 Qwen2.5-7B-Instruct 모델의 공감 벤치마크 점수를 13.3 에서 79.2 로 획기적으로 향상시키면서도 수학적 및 코딩 능력을 유지하는 결과를 입증합니다.

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI