ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

이 논문은 LLM 의 사실적 질문 응답 능력에 대한 견고성을 평가하기 위해 이름 개체, 주석, 그리고 문맥 과부하라는 세 가지 차원의 다단계 은닉 기법을 적용한 새로운 프레임워크 'ObfusQA'와 이를 구현하는 'ObfusQAte'를 제안하며, LLM 이 은닉된 질문을 마주할 때 실패하거나 환각을 생성하는 경향이 있음을 발견했다고 요약할 수 있습니다.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru, Kripabandhu Ghosh

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 아이디어: "변장한 질문"을 던지다

지금까지 AI 를 평가할 때는 "누가 전화를 발명했나요?"처럼 아주 직관적이고 쉬운 질문을 던졌습니다. AI 는 이 질문에 "알렉산더 그레이엄 벨"이라고 정확히 답합니다. 하지만 이는 AI 가 진짜로 이해해서 답한 걸까요? 아니면 그냥 "전화 = 벨"이라는 공식을 암기해서 답한 걸까요?

이 연구는 **"ObfusQAte(오브푸스케이트)"**라는 새로운 장비를 개발했습니다. 이 장비는 AI 에게 질문을 변장시켜서 다시 물어봅니다. 마치 면접관이 지원자에게 아주 쉬운 질문을 하되, 매우 우회적이고 헷갈리게 표현해서 진짜 실력을 테스트하는 것과 같습니다.

🎭 세 가지 변장 전략 (난이도 조절)

연구진은 질문을 변장하는 세 가지 방법을 만들었습니다.

  1. 직접적인 이름 대신 설명하기 (Named-Entity Indirection)

    • 원래 질문: "전화기를 발명한 사람은?"
    • 변장된 질문: "오랜 거리에서도 소리를 들을 수 있게 해준 천재는 누구일까요?"
    • 비유: 친구의 이름을 직접 부르지 않고, "우리 반에서 키가 가장 크고 안경을 쓴 친구"라고 묘사하는 것과 같습니다. AI 는 '전화기'라는 단어 대신 '오랜 거리 소리'라는 개념을 연결해 추론해야 합니다.
  2. 헷갈리는 오답을 끼워 넣기 (Distractor Indirection)

    • 원래 질문: "전화기 발명자는?"
    • 변장된 질문: "1876 년에 전기를 이용한 통신을 개척한 천재는 누구일까요? (토머스 에디슨이나 니콜라 테슬라 같은 경쟁자들이 있었지만...)"
    • 비유: 정답을 고르는 시험 문제인데, 옆에 "에디슨", "테슬라"처럼 정답과 매우 비슷해 보이지만 틀린 오답들을 화려하게 장식해 놓은 것입니다. AI 는 이 미끼를 보고 넘어가지 않고 진짜 정답을 골라야 합니다.
  3. 정보로 뒤덮어 숨기기 (Contextual Overload)

    • 원래 질문: "호주의 수도는?"
    • 변장된 질문: "오스트레일리아의 거대한 대륙, 에뮤 전쟁의 소동, 파블로바의 기원 논란, 그리고 제너럴 총독의 관저가 있는 곳... 이 모든 이야기 속에서 수도는 어디일까요?"
    • 비유: 정답을 찾는 길 위에 불필요하지만 사실인 정보로 산더미처럼 장애물을 쌓아놓는 것입니다. AI 는 이 '소음' 속에서 진짜 핵심 질문을 찾아내야 합니다.

📉 실험 결과: AI 의 '가짜 지식'이 드러나다

이론적으로 아주 똑똑해 보이는 최신 AI 들 (GPT-4o, Claude, LLaMA 등) 에게 이 변장된 질문들을 던져봤습니다. 결과는 충격적이었습니다.

  • 쉬운 질문: AI 들은 거의 100% 정답을 맞췄습니다.
  • 변장된 질문: 정답률이 50% 이상 급락했습니다.
    • 특히 '오답을 끼워 넣기'나 '정보로 뒤덮기' 방식에서는 AI 가 완전히 혼란에 빠지거나, 아예 없는 사실을 지어내는 (할루시네이션) 현상이 발생했습니다.

왜 이런 일이 일어났을까요?
AI 는 질문의 핵심 의미를 이해하기보다, 훈련 데이터에서 **"이런 단어가 나오면 저런 답이 나와"**라는 패턴을 암기하고 있었습니다. 질문이 변장되면 그 패턴이 깨지기 때문에 AI 는 당황하고 엉뚱한 답을 내놓은 것입니다.

🔍 AI 의 속을 들여다보기 (내부 분석)

연구진은 AI 가 왜 실패하는지 내부적으로도 분석했습니다.

  • 자신감 하락: 질문이 변장되면 AI 는 "내가 이걸 정말 알까?"라고 스스로 의심하게 됩니다. (내부 확률 점수 하락)
  • 기억력 부족: 변장된 질문은 AI 가 훈련할 때 본 적 없는 새로운 형태라, AI 는 이를 '새로운 정보'로 인식해 기억해내지 못했습니다.
  • 이해의 부재: AI 는 복잡한 문장을 처리할 때, 중요한 정보를 먼저 파악하지 못하고 너무 일찍 결론을 내려버리는 경향이 있었습니다.

💡 결론: 진짜 지능을 위한 새로운 길

이 연구는 **"AI 가 정말로 세상을 이해하고 있는가?"**에 대한 중요한 질문을 던집니다.

지금까지의 AI 는 위대한 암기왕일 뿐, 진짜 추론 능력은 부족할 수 있다는 것을 보여줍니다. 이 연구에서 만든 **'ObfusQA(오브푸스퀘이)'**라는 데이터셋은 앞으로 AI 가 더 똑똑하고, 속임수에 넘어가지 않으며, 인간처럼 유연하게 생각하는지 평가하는 새로운 기준이 될 것입니다.

한 줄 요약:

"AI 가 질문을 변장하면 당황해서 엉뚱한 답을 내놓습니다. 이는 AI 가 아직 '이해'보다는 '암기'에 의존하고 있음을 증명하며, 더 튼튼한 AI 를 만들기 위해선 이런 변장된 질문에도 꿋꿋하게 답할 수 있어야 합니다."