CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering
이 논문은 100 명의 정신건강 전문가와 협력하여 개발한 대규모 벤치마크 'CounselBench'를 통해 대형 언어 모델이 실제 정신건강 질문 응답에서 보이는 안전성 및 개인화 부족 등의 한계와 인간 전문가 평가의 중요성을 체계적으로 분석하고 있음을 제시합니다.