Verifying the Robustness of Automatic Credibility Assessment

이 논문은 의미 보존적 변형을 통해 텍스트 분류기의 취약점을 공격하는 방법을 체계적으로 검증하고, 허위 정보 감지 작업을 위한 새로운 벤치마크인 BODEGA를 제안하며, 최신 대규모 언어 모델이 기존 모델보다 오히려 더 취약할 수 있음을 실험적으로 증명합니다.

Piotr Przybyła, Alexander Shvets, Horacio Saggion

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 배경: AI 경찰관과 사기꾼의 대결

인터넷에는 가짜 뉴스, 허위 정보, 선동적인 글들이 넘쳐납니다. 이를 막기 위해 페이스북, 트위터 같은 플랫폼들은 **AI(인공지능)**를 채용해서 "이 글은 믿을 수 있다/없다"를 판별하게 합니다.

하지만 여기서 문제가 생깁니다.

  • 사기꾼 (공격자): AI 가 자신을 걸러내지 못하게 하려고 글을 살짝 변형합니다.
    • 예시: "우크라이나 원자력 발전소 화재로 방사능 먼지가 다가온다!" (거짓) → AI 가 걸러냄.
    • 변형: "우크라이나 원자력 발전소 화재 후 방사능 먼지가 다가오고 있다!" (단어 하나만 바꿈) → AI 가 "아, 이건 진짜 뉴스구나"라고 잘못 판단함.

이처럼 의미는 그대로 두되, AI 가 오해하도록 살짝만 건드리는 글을 '적대적 예시 (Adversarial Example)'라고 부릅니다.

🛡️ 2. 연구의 핵심: '보디가 (BODEGA)'라는 시험지

저자들은 이 문제를 체계적으로 연구하기 위해 **'보디가 (BODEGA)'**라는 새로운 평가 도구를 만들었습니다. 이는 마치 AI 경찰관의 실력을 시험하는 모의고사와 같습니다.

  • 시험 과목 4 가지:

    1. 편향된 뉴스: 특정 정치적 성향이 너무 강한 글.
    2. 선전 (프로파간다): 사실을 왜곡하거나 감정을 자극하는 글.
    3. 팩트체크: 사실과 다른 주장.
    4. 루머: 출처 불명의 소문.
  • 시험 방식:
    다양한 '공격자 (해커)'들이 AI 경찰관에게 가짜 글을 변형해서 제출합니다. AI 가 이를 진짜로 착각하면 공격 성공! 이때 **사람이 읽었을 때 의미는 그대로인지 (비유하자면, 옷을 살짝 바꾼 정도인지)**를 점수로 매깁니다.

🔍 3. 놀라운 발견: "AI 가 더 똑똑해질수록, 속아넘어갈 수도 있다?"

연구 결과, 가장 충격적인 사실이 드러났습니다.

"최신형 AI(거대 언어 모델) 가 구형 AI 보다 더 쉽게 속아넘어간다는 것!"

  • 비유:
    • 구형 AI (BERT 등): 작지만 튼튼한 경비원. 사기꾼이 옷을 살짝 바꿔도 "아, 이 사람은 수상해!"라고 바로 알아챔.
    • 최신형 AI (GEMMA 등): 엄청나게 똑똑하고 지식이 많은 경비원. 하지만 사기꾼이 아주 미세하게 옷을 바꾸거나 문장을 살짝 비틀면, "아, 이분은 진짜 VIP 가 아니야?"라고 착각해서 통과시켜버립니다.

왜 그럴까요?
최신 AI 는 방대한 데이터를 학습했지만, 그 방대한 지식 때문에 오히려 사소한 단어의 뉘앙스 변화에 민감하게 반응하거나, 논리적 허점을 간과하는 경향이 있기 때문입니다. 연구에 따르면 최신 AI 를 공격하는 데 성공할 확률이 구형 AI 보다 최대 27% 더 높았습니다.

📊 4. 어떤 공격이 가장 효과적일까?

시험지를 분석한 결과, 공격 방법마다 특징이 다릅니다.

  • 한 글자 바꾸기 (DeepWordBug): 'l'을 '1'로 바꾸거나, 'll'을 '||'로 바꾸는 식입니다. 사람이 보기엔 거의 똑같지만, AI 는 완전히 다른 단어로 인식합니다.
  • 동의어 바꾸기 (BERT-ATTACK): "매우 좋다"를 "엄청 좋다"로 바꾸는 식입니다. 문맥을 잘 파악하는 AI 일수록 이 공격에 더 취약합니다.
  • 결과: 짧은 글 (선전, 팩트체크) 은 공격하기 쉽지만, 긴 글 (뉴스, 루머 스레드) 은 AI 가 전체 맥락을 파악하려다 보니 공격하기가 더 어렵습니다.

💡 5. 결론 및 제언: AI 만 믿으면 안 된다

이 연구는 우리에게 중요한 메시지를 줍니다.

  1. AI 는 만능이 아니다: 아무리 똑똑한 AI 라도 사소한 변형에 속아넘어갈 수 있습니다.
  2. 최신 기술이 무조건 안전하지는 않다: 최신 AI 모델을 쓴다고 해서 해킹에 더 안전해지는 것은 아닙니다.
  3. 인간의 눈이 필요하다: AI 가 "이건 안전하다"고 판단하더라도, 사람이 최종 확인을 해주는 시스템이 가장 안전합니다. (AI 는 선별을 하고, 인간은 최종 결정을 내리는 식)

🎯 한 줄 요약

"AI 가 가짜 뉴스를 잡는 능력을 시험해 보니, 최신 AI 일수록 사소한 글자 바꾸기에도 속아넘어가는 경우가 많았다. 따라서 AI 만 믿지 말고 인간의 감시와 함께해야 한다."

이 연구는 앞으로 AI 를 개발할 때, 단순히 '정확도'만 높이는 것이 아니라 '해킹에 얼마나 강한가 (Robustness)'를 함께 테스트해야 함을 강조합니다.