QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

이 논문은 하이브리드 RoBERTa 인코더와 LLM 을 예측 수준에서 앙상블 학습하여 SemEval-2026 태스크 3 의 다차원 어휘 기반 감정 회귀 과제에서 RMSE 를 크게 줄이고 상관관계 점수를 향상시킨 QuadAI 시스템을 제시합니다.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

QuadAI: 감정의 정교한 저울을 만든 인공지능 이야기

이 논문은 2026 년에 열린 'SemEval'이라는 인공지능 경진대회에 참가한 QuadAI 팀의 이야기를 담고 있습니다. 이 팀이 한 일은 단순히 "이 문장이 좋은가 나쁜가?"를 판단하는 것을 넘어, 감정의 미세한 뉘앙스까지 숫자로 측정하는 기술을 개발한 것입니다.

이 복잡한 기술을 일반인도 쉽게 이해할 수 있도록 요리사, 전문가, 그리고 심판단의 비유로 설명해 드리겠습니다.


1. 목표: 감정을 '점수'로 재는 것

우리가 "이 영화 정말 재밌다!"라고 말할 때, 그 감정은 단순히 '좋음'과 '나쁨'이 아닙니다. 얼마나 **기분 좋은지 (Valence/가치)**와 그 감정이 얼마나 **강렬한지 (Arousal/각성)**가 다릅니다.

  • 예시: "기분 좋은데 약간 지루하다" vs "기분 좋고 아주 신나다".
  • QuadAI 의 목표: 이 복잡한 감정 상태를 0 에서 1 사이의 숫자 (예: 0.85) 로 정확히 예측하는 것입니다.

2. 해결책 1: "하이브리드 로버트 (Hybrid RoBERTa)" - 두 가지 방식을 섞은 요리사

팀이 만든 첫 번째 모델은 RoBERTa라는 강력한 언어 모델을 기반으로 했습니다. 하지만 이 모델은 두 가지 다른 방식으로 감정을 계산했습니다.

  • 방식 A (회귀 분석): 감정을 연속적인 숫자로 바로 예측합니다. (예: "정확히 0.734 입니다")
    • 비유: 감정을 자로 재는 것. 정밀하지만 자의 눈금이 흔들릴 수 있습니다.
  • 방식 B (분류): 감정을 **단계 (Bin)**로 나눕니다. (예: "1 단계, 2 단계, ..., 31 단계 중 15 단계에 속함")
    • 비유: 감정을 체급 (가벼운 체급, 중량급 등) 으로 나누는 것. 범위가 명확해서 안정적입니다.

QuadAI 의 아이디어: "두 가지 방식 모두 장점이 있으니, 두 명의 요리사가 만든 요리를 섞어서 내자!"
이 두 가지 예측값을 평균내어 (50:50) 최종 점수를 냈습니다. 이렇게 하면 한쪽이 틀려도 다른 쪽이 보완해주어 더 안정적이고 정확한 결과를 얻을 수 있었습니다.

3. 해결책 2: "LLM(대규모 언어 모델)" - 경험 많은 전문가

다음으로, 최신 AI 기술인 LLM(예: Gemini, Claude, GPT 등) 을 활용했습니다.

  • 비유: 이 모델들은 방대한 책을 읽은 지식인 같습니다.
  • 작동 방식:
    1. 데이터 청소: 학습용 예시들 중 잘못된 데이터 (오류가 있는 것) 를 찾아내어 버렸습니다. (3 명의 전문가가 모여 "이건 이상하네?"라고 토론하며 걸러냄)
    2. 맥락 학습 (In-Context Learning): 새로운 문제를 풀 때, 비슷한 예시들을 보여주고 "이런 경우에는 이렇게 답했어"라고 가르쳤습니다.
    3. 결과: 이 전문가들은 혼자서도 매우 뛰어난 성능을 보였습니다.

4. 해결책 3: "앙상블 (Ensemble)" - 심판단 회의

가장 중요한 순간입니다. 하이브리드 요리사LLM 전문가의 의견을 어떻게 합칠까요?

  • 단순 평균: 두 사람의 점수를 그냥 더해서 나눕니다.
  • 가중 평균: 더 잘하는 사람의 의견에 더 높은 점수를 줍니다.
  • 릿지 회귀 (Ridge Stacking): 두 사람의 점수와 다른 보조 정보 (VADER 라는 사전 기반 감정 분석 도구) 를 함께 고려하여, 최적의 조합을 찾아주는 제 3 의 심판이 최종 점수를 결정합니다.

결과: 이 '심판단 회의' 방식을 쓰니, 개별 모델이 혼자 할 때보다 오차 (RMSE) 가 크게 줄고 감정과 실제 점수의 상관관계가 훨씬 좋아졌습니다. 마치 여러 전문가가 모여 토론하면 개인이 혼자 판단할 때보다 훨씬 정확한 결론이 나오는 것과 같습니다.

5. 성과와 한계

  • 성공: 개발 데이터 (시험 문제) 에서 이 방법은 기존 모델들보다 훨씬 좋은 성적을 거두었습니다. 특히 레스토랑 리뷰 데이터에서는 오차가 절반 가까이 줄어들었습니다.
  • 한계:
    • 시간 부족: 대회 당일에 모든 최신 기술 (LLM 과 앙상블) 을 최종 테스트에 적용하지 못해, 기본 모델 (하이브리드 로버트) 만으로 제출했습니다.
    • 결과: 기본 모델만으로도 상위권 (레스토랑 22 위, 노트북 16 위) 을 차지하며 매우 유망한 가능성을 보였습니다.

6. 결론: "혼자보다 함께가 낫다"

이 연구는 **기존의 정밀한 모델 (로버트)**과 **유연한 최신 모델 (LLM)**을 결합했을 때, 감정을 분석하는 데 있어 시너지 효과가 발생함을 증명했습니다.

마치 정밀한 저울경험 많은 감정 전문가가 함께 일하면, 우리가 느끼는 미묘한 감정의 떨림까지 정확히 잡아낼 수 있다는 것을 보여준 것입니다. 팀은 앞으로 이 기술을 더 발전시켜 다른 언어 (중국어 등) 와 더 다양한 분야에 적용할 계획입니다.