Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults

당신에게 매우 똑똑하고 유능한 로봇 비서가 있다고 상상해 보세요. 당신이 질문을 던지면, 로봇은 답을 내놓습니다. 보통 우리는 로봇이 "고장 났거나", 누군가 "네 규칙을 무시하고 X를 해"와 같은 직접적인 명령으로 로봇을 속이는 것을 걱정합니다.

하지만 이 논문은 조금 더 교묘하고 은밀한 질문을 던집니다: 만약 아무도 로봇에게 무엇을 하라고 말하지 않지만, 로봇이 대답하기 직전에 로봇이 '읽는 내용'을 통제한다면 어떻게 될까?

이 연구의 내용을 알기 쉽게 설명하면 다음과 같습니다:

설정: "스크롤" 단계

연구진은 하나의 게임을 설정했습니다. 그들은 AI 에이전트에게 다음과 같은 과제를 주었습니다: "회사가 직원들에게 재택근무를 허용할지, 사무실로 복귀할지, 아니면 혼합형 모델을 적용할지 결정하라."

AI가 최종 결정을 내리기 전, 연구진은 AI가 10번의 턴 동안 소셜 미디어 피드를 "스크롤"하도록 만들었습니다. 각 턴마다 AI는 5개의 짧은 게시물을 보게 됩니다.

대조군(Control): AI의 두뇌(모델), 질문 내용, 그리고 성격은 모든 테스트에서 정확히 동일했습니다.
변수(Variable): 변하는 것은 오직 **피드(feed)**뿐이었습니다. 때때로 피드는 평범하고 무작위적인 게시물들로 채워졌습니다. 때때로 피드는 "사무실 복귀"를 강력하게 주장하는 게시물들로 가득 찼습니다. 비록 이 게시물들이 "사무실로 복귀하라"고 직접 명령하지는 않았지만, 그저 일반적인 글이나 의견처럼 보였을 뿐입니다.

발견: "에코 체임버(Echo Chamber)" 효과

연구진은 피드를 큐레이션(선별)함으로써, 로봇에게 직접적으로 생각을 바꾸라는 명령을 내리지 않고도 실제로 로봇의 결정을 조종할 수 있다는 사실을 발견했습니다.

그들은 AI의 반응에 따라 세 가지 유형의 로봇(모델)을 찾아냈습니다:

"굴복형" (조종하기 쉬운 모델):
- 비유: 어떤 사람이 저녁 메뉴를 결정하지 못해 망설이고 있다고 상상해 보세요. 만약 당신이 그들에게 피자 사진만 가득한 메뉴판을 보여준다면, 그들은 아마도 피자를 주문할 것입니다.
- 결과: Llama 3.2와 같은 일부 AI 모델이 이와 같았습니다. 피드가 "사무실 복귀" 게시물로 가득 차면, AI는 원래 원격 근무를 선호했더라도 "사무실 복귀"를 추천하기 시작했습니다. 명령이 필요 없었습니다. 그저 정보의 양에 의해 마음이 움직인 것입니다.
"포화형" (고집 센 바위):
- 비유: 어떤 사람이 피자를 너무 좋아해서, 메뉴판이 온통 버거로 가득 차 있어도 마음을 바꾸지 않는다고 상상해 보세요. 그들은 그저 피자를 원할 뿐입니다.
- 결과: Qwen과 같은 다른 모델들은 특정 답변(하이브리드 방식)에 너무 확고하게 고정되어 있어서, 아무리 많은 "사무실 복귀" 게시물을 보여주어도 움직이지 않았습니다. 그들은 자신들의 기본 의견으로 "포화" 상태였습니다.
"비대칭형" (일방통행):
- 비유: 당신이 약간 왼쪽으로 기울어져 있다고 상상해 보세요. 누군가 오른쪽에서 당신을 밀면 당신은 넘어질 수 있습니다. 하지만 만약 그들이 당신이 이미 기울어져 있는 방향인 왼쪽에서 민다면, 당신은 움직이지 않을 것입니다.
- 결과: 이 공격은 피드가 AI의 자연스러운 기본값에 반하는 방향으로 밀 때만 작동했습니다. 만약 AI가 이미 "원격 근무"를 좋아하고 있었다면, 피드가 "원격 근무" 게시물로 가득 차 있어도 AI는 변하지 않았습니다. 하지만 피드가 "사무실 복귀" 게시물로 가득 차 있다면, AI의 저울은 기울어졌습니다. 피드는 강한 신념을 '덮어쓸' 수는 없었지만, 흔들리는 신념의 무게추를 기울게 할 수는 있었습니다.

"용량"이 중요하다

연구진은 "용량-반응(dose-response)" 곡선을 발견했습니다. 이것은 마치 약을 복용하는 것과 같습니다:

만약 피드에 5개 중 1~2개의 "나쁜" 게시물이 있다면, 아무 일도 일어나지 않았습니다.
하지만 피드에 5개 중 3~4개의 "나쁜" 게시물이 있게 되면, AI의 결정이 뒤집히기 시작했습니다. 이것은 마법이 아니라, AI가 노출된 "노이즈(소음)"의 양에 관한 문제였습니다.

"생성기 교체" (우연이 아님을 증명하기)

연구진은 의구심을 가졌습니다: "혹시 AI가 나쁜 게시물의 '글쓰기 스타일'을 좋아했던 것 아닐까?"
이를 테스트하기 위해, 그들은 다른 AI가 작성한 게시물들을 사용했습니다. 결과는 어땠을까요? 공격은 오히려 더 강력해졌습니다. 이는 이 공격이 글쓰기 스타일 때문이 아니라, 주제의 선택에 관한 것이라는 점을 입증했습니다.

"숨겨진 메커니즘"이라는 신화

처음에 연구진은 AI의 뇌 속에 피드가 작동시키는 비밀스러운 "숨겨진 스위치"가 있다고 생각했습니다. 그들은 AI의 코드 내부를 들여다보기 위해 도구를 사용했습니다.

반전: 그들은 자신들이 틀렸다는 것을 깨달았습니다. 그들이 본 "신호"는 숨겨진 내부 스위치가 아니었습니다. 그것은 단지 AI가 대화 기록을 기억하고 있는 것뿐이었습니다. 채팅 로그를 확인하면 AI가 무엇을 읽었는지 정확히 알 수 있었습니다. "비밀"은 사실 눈에 보이는 '대화 기록' 그 자체였습니다. 이는 다른 과학자들에게 주는 경고입니다: 만약 AI가 이미 본 내용을 고려하지 않는다면, AI 내부의 "숨겨진 비밀"을 찾는다고 주장하는 도구들을 믿지 마십시오.

방어책

우리는 이를 막을 수 있을까요? 연구진은 두 가지 간단한 방법을 시도했습니다.

균형 잡힌 노출: AI에게 "원격"과 "사무실" 게시물을 동등하게 섞어서 보여주는 것입니다. 이것은 AI가 원래의 궤도를 유지하는 데 도움이 되었습니다.
공지(Disclosure): AI에게 "이 피드는 편향될 수 있습니다"라고 알려주는 것입니다. 이 방법 역시 완벽하지는 않았지만 도움이 되었습니다.

핵심 요약

이 논문의 결론은 "랭커(Ranker, 당신에게 무엇을 보여줄지 결정하는 시스템)"가 강력한 제어 노브(control knob)라는 것입니다.

과거에 우리는 해커가 AI에게 직접적인 명령을 보내는 것을 걱정했습니다. 이제 우리는 해커(또는 편향된 시스템)가 직접 명령을 보낼 필요가 없다는 것을 압니다. 그들은 단지 피드를 통제하기만 하면 됩니다. 평범하고 정상적으로 보이는 게시물들을 정교하게 선택함으로써, 그들은 보안, 정책, 또는 비즈니스 전략과 같은 중요한 주제에 대한 AI의 결정을 미묘하게 조종할 수 있습니다.

최종 경고: 우리는 단순히 진공 상태에서 단 하나의 질문을 던지는 방식으로 AI를 테스트해서는 안 됩니다. 우리는 AI가 큐레이션된 피드를 통해 "스크롤"을 마친 후에는 어떤 일이 벌어지는지를 테스트해야 합니다. 피드를 통제하는 사람이 AI의 다음 움직임을 통제합니다.

설정: "스크롤" 단계

발견: "에코 체임버(Echo Chamber)" 효과

"용량"이 중요하다

"생성기 교체" (우연이 아님을 증명하기)

"숨겨진 메커니즘"이라는 신화

방어책

핵심 요약

기술 요약: 적대적 피드가 LLM 에이전트의 기본 설정에 반하는 결정을 유도함

문제 정의

방법론

주요 기여

주요 결과

1. 취약성 및 체계

2. 생성기 교체 및 용량-반응

3. 기본 방향 비대칭성

4. 일반화

5. 방어

의의 및 주장

Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults

설정: "스크롤" 단계

발견: "에코 체임버(Echo Chamber)" 효과

"용량"이 중요하다

"생성기 교체" (우연이 아님을 증명하기)

"숨겨진 메커니즘"이라는 신화

방어책

핵심 요약

기술 요약: 적대적 피드가 LLM 에이전트의 기본 설정에 반하는 결정을 유도함

문제 정의

방법론

주요 기여

주요 결과

1. 취약성 및 체계

2. 생성기 교체 및 용량-반응

3. 기본 방향 비대칭성

4. 일반화

5. 방어

의의 및 주장

유사한 논문