CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

이 논문은 100 명의 정신건강 전문가와 협력하여 개발한 대규모 벤치마크 'CounselBench'를 통해 대형 언어 모델이 실제 정신건강 질문 응답에서 보이는 안전성 및 개인화 부족 등의 한계와 인간 전문가 평가의 중요성을 체계적으로 분석하고 있음을 제시합니다.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

이 논문은 시뮬레이션된 사용자로부터 검증 가능한 감정 보상을 활용하여 LLM 의 공감 능력을 극대화하는 새로운 강화학습 프레임워크인 RLVER 를 제안하고, 이를 통해 Qwen2.5-7B-Instruct 모델의 공감 벤치마크 점수를 13.3 에서 79.2 로 획기적으로 향상시키면서도 수학적 및 코딩 능력을 유지하는 결과를 입증합니다.

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

이 논문은 오프-바이-원 덧셈 과제를 통해 언어 모델이 표준 연산에서 새로운 함수를 유추하는 '함수 유도 (function induction)' 메커니즘을 발견하고, 이것이 병렬적으로 작동하며 다양한 작업에 재사용되어 작업 수준의 일반화를 가능하게 한다는 해석 가능성 연구를 제시합니다.

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification

이 논문은 텍스트 독성 제거를 위한 평가 척도의 신뢰성 부족과 영어 중심 연구의 한계를 극복하기 위해 아랍어, 아메하르어, 중국어 등 9 개 언어를 포괄하는 최초의 종합적 벤치마크를 제시하고, 인간 평가와의 상관관계가 높은 새로운 평가 방법론과 실용적 가이드라인을 제안합니다.

Vitaly Protasov, Nikolay Babakov, Daryna Dementieva + 1 more2026-03-05💬 cs.CL

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

이 논문은 텍스트 전용 데이터셋을 시각적 프롬프트 주입 공격을 평가할 수 있는 멀티모달 형식으로 변환하는 'Text2VLM' 파이프라인을 제안하여, 현재 오픈소스 시각 언어 모델 (VLM) 이 텍스트 입력보다 시각 입력이 추가될 때 더 취약하며 정렬 (alignment) 이 부족함을 규명했습니다.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

WebDS: An End-to-End Benchmark for Web-based Data Science

이 논문은 기존 벤치마크의 한계를 극복하고 현실적인 웹 기반 데이터 과학 워크플로우를 평가하기 위해 다양한 웹사이트와 복잡한 도구 사용 능력을 요구하는 새로운 엔드투엔드 벤치마크인 'WebDS'를 제안하고, 현재 최첨단 LLM 에이전트와 인간 간에 큰 성능 격차가 있음을 입증합니다.

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

이 논문은 단일 관점의 분석과 환각 문제에 취약한 기존 방법을 극복하기 위해, 언어 이론 기반의 다중 에이전트 추론 엔진과 최종 판정을 위한 분리된 평가 모듈을 결합한 'SEVADE' 프레임워크를 제안하여 아이러니 감지 성능을 획기적으로 개선했음을 보여줍니다.

Ziqi Liu, Ziyang Zhou, Yilin Li + 4 more2026-03-05💬 cs.CL

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

이 논문은 LLM 의 사실적 질문 응답 능력에 대한 견고성을 평가하기 위해 이름 개체, 주석, 그리고 문맥 과부하라는 세 가지 차원의 다단계 은닉 기법을 적용한 새로운 프레임워크 'ObfusQA'와 이를 구현하는 'ObfusQAte'를 제안하며, LLM 이 은닉된 질문을 마주할 때 실패하거나 환각을 생성하는 경향이 있음을 발견했다고 요약할 수 있습니다.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI