PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

이 논문은 기존 연구의 한계인 가짜 다중모달성과 사용자 동질성 문제를 해결하기 위해, 사용자의 장기적 성향을 반영한 'U-MStance' 데이터셋과 이를 기반으로 한 다중모달 스탠스 감지 프레임워크 'PRISM'을 제안합니다.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng Xu

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 기존 기술의 문제점: "눈이 먼 판사"와 "모두 똑같은 사람"

소셜 미디어에서 사람들이 의견을 낼 때는 글만 쓰는 게 아니라, **사진이나 밈 (Meme)**을 함께 올리는 경우가 많습니다. 하지만 기존 연구들은 두 가지 큰 실수를 저질렀습니다.

  1. 가짜 멀티모달 (Pseudo-multimodality):

    • 비유: 마치 뉴스 기사에는 사진이 있지만, 댓글은 오직 글씨만 있는 것처럼 다뤘습니다.
    • 현실: 실제로는 댓글에도 사진이 붙어 있고, 그 사진이 글의 의미를 완전히 바꿀 수 있습니다. (예: "좋네요"라고 쓰면서 비꼬는 사진을 올리는 경우) 기존 기술은 이 사진을 무시하고 글자만 보고 판단해서 틀린 결론을 내렸습니다.
  2. 사용자 동질성 (User Homogeneity):

    • 비유: 모든 사람을 똑같은 로봇으로 취급했습니다.
    • 현실: 사람은 다릅니다. 어떤 사람은 항상 논리적이고 차분하고, 어떤 사람은 감정적이고 예민할 수 있습니다. 같은 말이라도 "차분한 사람"이 했을 때와 "감정적인 사람"이 했을 때의 의미는 다릅니다. 기존 기술은 이런 **개인의 성향 (페르소나)**을 무시했습니다.

🚀 새로운 해결책: PRISM (프리즘)

저자들은 이 문제를 해결하기 위해 PRISM이라는 새로운 AI 모델을 만들었습니다. 이름처럼 빛을 여러 색으로 분해하듯, 이 모델은 정보를 세밀하게 분석합니다.

PRISM 은 크게 세 가지 단계로 작동합니다.

1. "사용자의 과거를 읽는 심리 분석가" (Longitudinal User Persona Distillation)

  • 비유: 이 모델은 단순히 지금 당장의 글만 보는 게 아니라, 그 사람의 과거 모든 글과 사진을 뒤져서 '성격 테스트'를 합니다.
  • 작동: 오세아니아 (OCEAN) 라는 5 가지 성격 지표 (개방성, 성실성, 외향성, 친화성, 신경증) 를 분석합니다.
    • 예: "이 사람은 평소에도 예민하고 비판적인 성향이 강하구나"라고 파악하면, 지금 쓴 글이 진짜 비판인지 농담인지 더 잘 이해할 수 있습니다.

2. "사진의 숨은 뜻을 해석하는 통역사" (Rationalized Cross-Modal Grounding)

  • 비유: 사진이 단순히 장식이 아니라, **말을 대신하는 '의사소통 도구'**임을 깨닫습니다.
  • 작동: AI 는 "이 사진에 뭐가 그려져 있나?" (사실적 설명) 를 먼저 보고, 그다음에 **"이 사람이 이 사진을 왜 이 글과 함께 올렸을까?" (의도 파악)**를 추론합니다.
    • 예: "트럼프와 오바마를 비교하는 사진"을 올렸다면, 단순히 두 사람 얼굴이 아니라 "이 사람은 트럼프를 조롱하려는 의도"임을 파악합니다.

3. "스스로를 가르치는 스승" (Mutual Task Reinforcement)

  • 비유: 학생이 문제를 풀 때, 정답을 맞히는 것뿐만 아니라 "왜 그 답이 나왔는지 설명하는 연습"도 함께 합니다.
  • 작동: AI 는 "이 댓글의 성향을 맞히는 것 (주임무)"과 "이 댓글이 왜 그렇게 쓰였을지 상상해서 글을 이어 쓰는 것 (보조임무)"을 동시에 학습합니다. 이렇게 하면 AI 가 상황을 더 깊이 이해하게 되어 정확도가 올라갑니다.

📊 새로운 데이터셋: U-MStance (유-엠스탠스)

이 모델을 훈련시키기 위해 저자들은 새로운 데이터셋을 만들었습니다.

  • 기존: 글만 있는 댓글 위주.
  • 새로운 것 (U-MStance): 사진이 포함된 댓글사용자의 과거 정보가 모두 포함된 4 만 개 이상의 데이터입니다.
  • 의미: 이제 AI 는 현실 세계처럼 "글 + 사진 + 사람의 성격"을 모두 고려해서 판단할 수 있게 되었습니다.

💡 결론: 왜 이것이 중요한가요?

이 연구는 **"사람은 단순한 텍스트가 아니라, 복잡한 사람이다"**는 사실을 AI 에게 가르쳤습니다.

  • 기존 AI: "이 글은 부정적인 단어들이 많으니 '반대'다." (단순함)
  • PRISM: "이 글은 부정적인 단어가 있지만, 이 사람은 평소에도 예민한 성향이고, 올린 사진은 아이러니하게 비판하는 의미라... 결국 이 사람은 **'반대'**하는 거구나." (정교함)

결과적으로 PRISM 은 기존 모델들보다 훨씬 정확하게 사람들의 의견을 파악할 수 있게 되었으며, 특히 사진이 포함된 복잡한 대화서로 다른 주제에서도 잘 적응하는 것을 보여주었습니다.

한 줄 요약:

"사람의 성격사진의 숨은 뜻까지 읽어내는, 소셜 미디어의 진짜 심리 분석가를 만들었습니다."