IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs
이 논문은 프론티어 LLM 의 지시 계층 구조 (IH) 강인성을 향상시키기 위해 고안된 강화 학습 데이터셋 'IH-Challenge'를 소개하고, 이를 통해 GPT-5-Mini 의 지시 계층 안정성을 10% 이상 개선하면서도 안전성과 유용성을 동시에 확보한 결과를 제시합니다.
Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI