IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs
Dit paper introduceert IH-Challenge, een reinforcement learning-dataset die de instructiehiërarchie van frontier LLMs verbetert, waardoor de weerbaarheid tegen jailbreaks en prompt-injecties aanzienlijk toeneemt zonder de nuttigheid van het model te verminderen.
Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI