Token-level Data Selection for Safe LLM Fine-tuning

이 논문은 미세 조정 중 발생하는 안전성 저하를 해결하기 위해 샘플 단위가 아닌 토큰 단위로 위험을 정량화하고 제거하는 새로운 프레임워크 TOSS 와 점진적 정제 전략 TOSS-Pro 를 제안하여 안전성과 유용성을 동시에 향상시키는 방법을 제시합니다.

Yanping Li, Zhening Liu, Zijian Li, Zehong Lin, Jun Zhang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 비유: "요리사 (AI) 의 레시피 수정"

생각해 보세요. 이미 훌륭한 요리사 (안전하게 훈련된 AI) 가 있습니다. 이 요리사는 유해한 재료를 절대 쓰지 않고, 손님에게 해로운 음식을 주지 않도록 훈련받았습니다.

이제 우리는 이 요리사에게 특정 지역 (예: 한국) 의 맛을 내게 하고 싶어서, 새로운 레시피 (데이터) 를 가르치려 합니다. 하지만 문제는 이 새로운 레시피 속에 실수로 독이 섞인 재료가 있거나, 유해한 조리법이 숨어있을 수 있다는 점입니다.

기존의 방법들은 이렇게 했습니다:

  • 과거의 방법 (샘플 단위 삭제): "이 레시피 카드 한 장에 독이 섞인 글자가 하나라도 있으면, 그 카드 전체를 쓰레기통에 버려라!"
    • 문제점: 독이 섞인 글자가 하나뿐인데, 그 카드를 통째로 버리면 맛있는 소스나 중요한 조리법도 함께 사라져서 요리사가 한국 음식을 제대로 못 만들게 됩니다. (안전은 되지만, 유용성이 떨어짐)

💡 이 논문의 해결책: "TOSS (알맹이만 골라내는 정교한 체)"

이 연구팀은 **"레시피 카드 전체를 버릴 필요 없이, 독이 섞인 글자 (토큰) 하나하나만 골라내서 제거하자"**고 제안합니다.

1. 핵심 아이디어: "글자 단위 (Token-level) 의 정밀 검사"

레시피 한 장을 볼 때, "이 카드가 위험하니까 다 버려"가 아니라, **"이 카드의 10 번째 글자는 '독'이지만, 11 번째 글자는 '맛있는 소스'야. 10 번째 글자만 잘라내고 11 번째는 살리자"**는 방식입니다.

2. 어떻게 작동할까요? (두 명의 심사위원)

이 시스템은 두 명의 가상의 심사위원을 고용합니다.

  • 심사위원 A (위험 감수자): "유해한 음식"을 만드는 데 특화된 요리사입니다. (위험한 패턴을 잘 아님)
  • 심사위원 B (맛 탐구자): "맛있는 한국 음식"을 만드는 데 특화된 요리사입니다. (유용한 정보를 잘 아님)

이제 새로운 레시피의 글자 하나하나를 두 심사위원에게 보여줍니다.

  • 만약 어떤 글자가 **심사위원 A(위험)**에게는 "아, 이거 우리 레시피랑 딱 맞아!"라고 생각되는데, **심사위원 B(맛)**에게는 "이건 우리 레시피랑 상관없어"라고 생각된다면?
  • 결론: 그 글자는 위험하니까 잘라내자!
  • 반대로 두 심사위원 모두 "이건 좋은 글자야"라고 하면 그 글자는 살려두자!

이렇게 글자 하나하나의 위험도를 계산해서, 해로운 부분만 '가위'로 잘라내고 유용한 부분은 그대로 남깁니다.

3. TOSS-Pro: "점점 더 똑똑해지는 검사관"

처음엔 검사관이 완벽하지 않을 수 있습니다. 그래서 TOSS-Pro라는 업그레이드 버전이 있습니다.

  • 1 차 검사에서 위험한 글자를 찾아내서 제거하고, 그 정보를 바탕으로 검사관 A 를 다시 훈련시킵니다.
  • 이렇게 반복적으로 훈련을 시키면, 검사관이 점점 더 정교하게 "위험한 글자"를 찾아내게 되어, 더 완벽한 요리를 만들 수 있게 됩니다.

🌟 왜 이 방법이 좋은가요?

  1. 안전하면서도 맛있습니다: 유해한 글자만 잘라내서, 요리사는 여전히 한국 음식의 맛 (유용성) 을 잘 내면서도 독 (위험) 은 내지 않습니다.
  2. 데이터 낭비가 없습니다: 레시피 카드 전체를 버리지 않으므로, 소중한 정보 (맛있는 소스) 를 잃지 않습니다.
  3. 정밀합니다: "무조건 다 버리는" 기존 방법보다 훨씬 정교하게 문제를 해결합니다.

📝 요약

이 논문은 **"AI 를 수정할 때, 나쁜 부분 때문에 좋은 부분까지 다 버리지 말고, 나쁜 글자 (토큰) 하나하나만 골라내서 제거하는 정교한 기술 (TOSS)"**을 개발했다고 말합니다. 마치 나쁜 과일은 도려내고 좋은 과일은 그대로 남겨서 맛있는 주스를 만드는 것과 같습니다.

이 방법을 쓰면 AI 는 여전히 똑똑하고 유용하면서도, 해로운 말은 하지 않는 안전한 친구가 될 수 있습니다.