QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

Each language version is independently generated for its own context, not a direct translation.

この論文は、2026 年に開催された「SemEval」という AI 技術のコンテストに参加したチーム「QuadAI」の取り組みを報告したものです。

彼らが挑戦したのは、**「文章の感情を、単なる『良い・悪い』ではなく、もっと繊細な数値で測る」**という難しいタスクです。

まるで、料理の味を「美味しい・まずい」でしか言えないのではなく、「塩味が 7 点、甘みが 3 点、辛さが 5 点」といったように、感情の「強さ」や「種類」を細かく数値化しようという試みです。

彼らが使った方法を、わかりやすい比喩を使って説明しましょう。

1. 2 人の「天才シェフ」を雇う（ハイブリッド・モデル）

彼らはまず、**「RoBERTa（ロバータ）」**という AI 模型を改造しました。これを「ハイブリッド・シェフ」と呼びましょう。

通常、AI は感情を予測する時、2 つのやり方のどちらかしか選びません。

やり方 A（回帰）： 0 から 100 まで、自由に好きな数字を言う（例：73.45 点）。
やり方 B（分類）： 0〜100 を「10 段階」に分けて、どの段階に入るかを選ぶ（例：70〜80 点のグループ）。

QuadAI の工夫：
彼らは「どっちか一方だけじゃ不安だ」と考え、**「両方のシェフを同時に働かせて、その平均値を出す」**ことにしました。

自由な数字を出すシェフと、段階を分けるシェフが意見を出し合い、その「平均」を最終的な答えとします。
メリット： 一方が間違っても、もう一方がカバーしてくれるため、答えが安定します。まるで、二人の料理人が味見をして「塩味が少し足りないね」「でも甘みは完璧だ」と話し合い、完璧な味を調整するようなものです。

2. 超・賢い「料理評論家」を呼ぶ（LLM）

次に、彼らは最新の巨大言語モデル（LLM：GPT や Gemini などのような超賢い AI）を「料理評論家」として招きました。

ゼロショット（例なし）： 何も教えずに「この文章の感情は？」と聞く。
イン・コンテキスト・ラーニング（例あり）： 「例えば、この文章は『喜び』で 80 点でした」という例をいくつか見せてから、「じゃあ、この文章は？」と聞く。

さらに面白いのが、彼らが**「悪い例をフィルタリングする」**作業をしたことです。

評論家たちに「この 3 つの例の中で、明らかに的外れな（アウトレイヤー）のはどれ？」と聞き、3 人全員が「これだ！」と一致したら、その例をデータから排除しました。
これにより、学習用のデータが「きれいな状態」になり、AI の精度が上がります。

3. 3 人の「審査員」で最終決定（アンサンブル学習）

最後に、彼らは**「ハイブリッド・シェフ（RoBERTa）」と「評論家（LLM）」の意見を集約する「審査委員長」役を作りました。これを「アンサンブル学習（ Ensemble Learning）」**と呼びます。

シェフの意見（AI の計算結果）
評論家の意見（LLM の回答）
追加のヒント（VADER という、辞書ベースの感情分析ツールの結果）

これらをすべてテーブルに並べ、「審査委員長」が「シェフの意見は 3 割、評論家の意見は 7 割」というように、それぞれの信頼度に合わせて重みをつけて、最終的な「感情の点数」を算出しました。

結果はどうだった？

開発データ（練習用）での結果：
単独で戦うよりも、チームで戦う方が圧倒的に強かったです。
- 「ハイブリッド・シェフ」だけでも優秀でしたが、「評論家」を足して「審査委員長」でまとめると、さらに精度が向上しました。
- 特に、感情の「強さ（RMSE）」を測る誤差が大幅に減り、人間に近い感覚で感情を捉えられるようになりました。
本番（提出）での結果：
残念ながら、時間的な制約や予期せぬ事情により、彼らが開発した「最高のチーム編成（LLM とアンサンブル）」を本番のテストデータに適用できませんでした。
提出したのは「ハイブリッド・シェフ（RoBERTa）」単独のバージョンでしたが、それでも参加チームの中で上位 20 位以内に入る好成績を収めました。もし全編成を提出できていれば、もっと上位を狙えたはずです。

まとめ：この研究のすごいところ

この論文が伝えているのは、**「AI には、計算が得意な『堅実なタイプ』と、文脈を理解する『直感的なタイプ』の 2 種類がいる。この 2 つを上手に組み合わせれば、人間に近い繊細な感情分析ができる」**という発見です。

まるで、堅実な会計士と直感の鋭い芸術家が組んで、作品の価値を評価するようなものです。それぞれの得意分野を掛け合わせることで、単独では不可能だった高精度な「感情の測定」が可能になったのです。

彼らはこの技術のコードを公開しており、今後の研究や、他の言語（中国語など）への応用も楽しみにしています。

Each language version is independently generated for its own context, not a direct translation.

以下は、SemEval-2026 タスク 3 に関する論文「QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis」の技術的な要約です。

1. 課題の背景と目的

本論文は、多次元アスペクトベース感情分析（Dimensional Aspect-Based Sentiment Analysis, DimABSA）、特に「Valence（快・不快）」と「Arousal（興奮度）」の 2 つの次元における感情の強さを連続値として回帰予測するタスク（Track-A1: DimASR）に焦点を当てています。
従来のアスペクトベース感情分析はカテゴリ分類が主流でしたが、近年は感情の微妙なニュアンスを捉えるため、連続値での回帰予測が求められています。しかし、データ不足やドメイン適応、複雑なアスペクトと意見の関係性のモデリングといった課題が残っています。

2. 提案手法

著者らは、エンコーダーモデルと大規模言語モデル（LLM）の長所を組み合わせるハイブリッドアプローチと、それらを統合するアンサンブル学習を提案しました。

2.1 ハイブリッド RoBERTa モデル

単一の回帰モデルではなく、以下の 2 つのヘッドを並列に学習させ、その出力を平均化することで安定性を向上させるモデルを設計しました。

回帰ヘッド（Regression Head）: 連続値の感情スコアを直接予測。
離散化分類ヘッド（Discretized Classification Head）: 連続値のターゲット空間を $n$ 個のビン（区間）に分割し、クロスエントロピー損失で分類学習を行う。これにより、予測の安定性とビンに対する自信度（確率分布）を表現可能。
統合: 最終予測は、回帰出力 $\hat{y}_{reg}$ と分類期待値 $\hat{y}_{cls}$ を重み $w$ （実験では 0.5）で平均化したもの（ $\hat{y} = w\hat{y}_{reg} + (1-w)\hat{y}_{cls}$ ）とします。

2.2 大規模言語モデル（LLM）の活用

LLM には、文脈内学習（In-Context Learning, ICL）を適用しました。

データクリーニング: HDB-Scan クラスタリングを用いて、Valence/Arousal 空間で類似するサンプルをグループ化し、3 つの異なる LLM（Gemini, Claude, GPT-5.2）にアウトレイヤー（異常値）の判定を行わせ、品質の低いラベルを除去するプロセスを導入しました。
プロンプト戦略: ゼロショット、ランダムな例、意味的類似性に基づいた例（Embedding 類似度で選出）を比較し、最適なプロンプト構成を探求しました。

2.3 予測レベルのアンサンブル学習（Ensemble Learning）

ハイブリッド RoBERTa と LLM の予測結果を統合するために、予測レベルのフュージョン（Late Fusion）を採用しました。

手法: 単純平均、重み付き平均、およびリッジ回帰によるスタッキング（Stacking）。
追加特徴量: VADER（辞書・ルールベースの感情分析ツール）から得られる複合スコアや極性スコアを補助特徴量としてアンサンブルコンバイナーに入力しましたが、実験ではノイズとなる可能性が示唆されました。
スタッキング: 学習データから漏れを防ぐため、アウト・オブ・フォールド（OOF）予測を用いてリッジ回帰モデルを訓練し、最終予測を生成しました。

3. 主要な結果

開発セット（Laptop および Restaurant ドメイン）における実験結果は以下の通りです。

ハイブリッド RoBERTa の効果:
- Laptop データセットにおいて、ハイブリッドモデルは単独の回帰モデルや離散化ビンモデルと比較して、MSE（平均二乗誤差）と RMSE（平均二乗誤差平方根）で大幅な改善（MSE は約 0.614 から 0.542 へ低下）を示しました。
- Restaurant データセットでは、ハイブリッドモデルの MSE が回帰モデルの約半分（0.8176 → 0.4919）にまで低下し、全指標で最高性能を記録しました。
LLM の性能:
- LLM（ICL 使用）単体でも、ハイブリッド RoBERTa よりも低い RMSE（0.695 vs 0.7361）と高い相関係数（0.757 vs 0.7231）を達成しました。
アンサンブル学習の成果:
- ハイブリッド RoBERTa と LLM をアンサンブルした結果、個々のモデルを凌駕する性能を発揮しました。
- Laptop データセットにおいて、アンサンブルモデルの RMSE は 0.6344 まで低下し、単一モデル（ハイブリッド 0.7361、LLM 0.695）よりも大幅に精度が向上しました。
- 重み付き平均およびリッジスタッキングが同様の性能を示しましたが、VADER 特徴量の追加は性能向上に寄与しませんでした。

4. 提出と評価

提出状況: 予期せぬ事情により、最終提出は LLM やアンサンブル学習を含まない「ハイブリッド RoBERTa モデル」のみに限定されました（Track-B は未提出）。
ランキング:
- Laptop データ: 30 チーム中 16 位（最上位チームのスコア 1.2408 に比較的近く、ベースライン 2.8053 より遥かに優れる）。
- Restaurant データ: 33 チーム中 22 位（最上位 1.1035、ベースライン 2.791 に対して良好な成績）。
- 軽量なエンコーダーベースのモデルのみでこれだけの成績を収めたことは、コスト効率の観点から有望とされています。

5. 貢献と意義

ハイブリッドアーキテクチャの有効性: 連続値回帰と離散化分類を組み合わせることで、予測の安定性と精度を両立させる手法を実証しました。
エンコーダーと LLM の相補性: 従来の PLM（RoBERTa など）と LLM の予測をアンサンブルすることで、単一モデルでは達成できない高精度な多次元感情分析が可能であることを示しました。
データクリーニングの提案: クラスタリングと複数 LLM による合議制を用いた高品質な Few-shot データ選定プロセスを提案しました。
オープンサイエンス: 開発コードとリソースを GitHub で公開し、今後の研究に貢献する姿勢を示しています。

6. 限界と今後の課題

時間的制約により、テストセットでの LLM やアンサンブルモデルの評価は行えませんでした（オフラインでの検証を予定）。
英語以外の言語（中国語など）への一般化可能性を検証する予定です。
自動ハイパーパラメータ調整（Optuna など）や、より多様なアンサンブル手法の導入が今後の課題です。

この論文は、多次元感情分析において、従来の深層学習モデルと最新の LLM を効果的に融合させることで、精度と安定性を大幅に向上させる可能性を示唆する重要な研究です。