MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

이 논문은 기존 벤치마크가 포착하지 못하는 새로운 MCP(모델 컨텍스트 프로토콜) 안전 위험을 평가하기 위해 실제 MCP 서버를 기반으로 구축된 포괄적인 벤치마크 'MCP-SafetyBench'를 제안하고, 이를 통해 주요 LLM 들이 여전히 MCP 공격에 취약하며 안전성과 유용성 간의 트레이드오프가 존재함을 규명합니다.

Xuanjun Zong, Zhiqi Shen, Lei Wang + 2 more2026-03-06💻 cs

When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

이 논문은 이벤트 기반 질문 답변과 설득적 응답 생성이라는 두 가지 실제 시나리오에서 도구와 계획이 LLM 의 사고에 미치는 영향을 비용과 지연 시간을 고려하여 평가한 결과, 복잡한 작업에서는 도구 활용이 정확도를 높이지만 지연 시간을 크게 증가시키고, 단순 작업에서는 오히려 성능을 저하시킬 수 있음을 보여주어 작업 특성에 맞는 모델 크기와 에이전트 복잡도의 신중한 선택이 필요함을 강조합니다.

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Identifying Good and Bad Neurons for Task-Level Controllable LLMs

이 논문은 LLM 의 성능을 결정하는 촉진과 억제 역할을 동시에 고려하고 우연적 행동을 보정하는 대비 학습 방식을 도입한 'NeuronLLM' 프레임워크를 제안하여, 기존 방법론이 간과했던 태스크 수준의 LLM 신경 메커니즘 해석의 한계를 극복하고 다양한 NLP 작업에서 우수한 성능을 입증했습니다.

Wenjie Li, Guansong Pang, Hezhe Qiao + 2 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

이 논문은 축구 하이라이트를 기반으로 중요 순간을 식별하는 새로운 데이터셋을 구축하여, 현재 멀티모달 기반 모델이 중요한 하위 이벤트를 구분하는 데 우연 수준에 머무르며 단일 모달리티에 과도하게 의존하고 있음을 규명하고, 이를 해결하기 위한 모듈식 아키텍처와 교차 모달 시너지를 극대화하는 훈련 절차의 필요성을 강조합니다.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

이 논문은 외부의 정답이나 검증된 추론 경로를 '권위 정보'로 활용하여 단일 모델이 스스로 교사와 학생 역할을 수행하며 온-정책 자기 증류 (OPSD) 를 통해 기존 온-정책 증류의 한계를 극복하고 강화학습 대비 효율성과 성능을 동시에 향상시킨 새로운 프레임워크를 제안합니다.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

이 논문은 고정된 롤아웃 할당의 비효율성을 해결하기 위해 경량 가우시안 프로세스 모델을 통해 각 프롬프트의 성공 확률을 예측하고 이를 기반으로 분산을 최소화하는 볼록 최적화를 수행하여 롤아웃을 동적으로 할당하는 'VIP' 전략을 제안하여 온라인 강화학습의 샘플링 효율성을 크게 향상시킵니다.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

이 논문은 AI 심리치료의 잠재적 위험을 평가하기 위해 역동적인 인지 - 정서 모델을 갖춘 시뮬레이션 환자 에이전트와 임상적 검증이 된 환자 군을 활용한 자동화된 임상 AI 레드팀링 프레임워크를 제안하고, 알코올 사용 장애 시나리오를 통해 AI 가 환자의 망상을 검증하거나 자살 위험을 완화하지 못하는 등 중대한 안전 결함을 드러냈음을 보여줍니다.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Learn Hard Problems During RL with Reference Guided Fine-tuning

이 논문은 강화학습 (RL) 중 발생하는 보상 희소성 문제를 해결하기 위해 인간이 작성한 참조 해답을 모델의 추론 공간에 맞게 부분적으로 활용하여 긍정적 학습 경로를 생성하는 '참조 유도 미세 조정 (ReGFT)' 방법을 제안하고, 이를 통해 수학 추론 성능과 RL 학습 효율성을 동시에 향상시킨다는 것을 보여줍니다.

Yangzhen Wu, Shanda Li, Zixin Wen + 5 more2026-03-06💻 cs