QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个名为 QuadAI 的团队参加"SemEval-2026"人工智能竞赛的故事。他们的任务是给文本中的情感打分，而且不是简单的“好”或“坏”，而是要像心理学家一样，从**“愉悦度”（Valence，是开心还是难过）和“唤醒度”（Arousal，是兴奋还是平静）**两个维度来精准量化情感。

为了完成这个任务，他们设计了一套“组合拳”策略。我们可以把他们的系统想象成一家**“情感分析事务所”**，里面住着三位性格迥异的专家，他们通过不同的方式合作，最终给出了最精准的答案。

1. 核心专家：混合罗伯塔（Hybrid RoBERTa）

角色：既懂数学又懂直觉的“老练分析师”

这位专家基于一种叫 RoBERTa 的预训练模型（可以理解为读过海量书籍的 AI 大脑）。但 QuadAI 团队没有让他只用一种方式思考，而是给他配备了两顶帽子：

第一顶帽子（回归头）： 像做数学题一样，直接输出一个连续的数值（比如 0.85）。这很灵活，但有时候容易“手抖”，预测不够稳定。
第二顶帽子（分类头）： 像做选择题。团队把情感分数切成了很多个“小格子”（比如 31 个格子），让 AI 判断情感落在哪个格子里。这就像把连续的河流划分成一个个水塘，虽然牺牲了一点精度，但让预测变得更稳定，不容易出错。

绝招： 这位专家不会只戴一顶帽子。他把两顶帽子的预测结果平均一下（各占 50% 权重）。

比喻： 就像你问一位老练的厨师：“这汤咸不咸？”他既用量杯精确测量（回归），又凭舌头尝一下大概范围（分类），最后把两个结果结合起来告诉你：“大概是 0.7 分（满分 1 分）”。这样既保留了灵活性，又增加了稳定性。

2. 外援专家：大语言模型（LLMs）

角色：见多识广的“博学顾问”

除了那位老练的分析师，团队还请来了几位**大语言模型（LLM）**作为外援（比如 Gemini, Claude, GPT 等）。这些模型就像读过互联网上所有文章的“博学顾问”。

少样本学习（In-Context Learning）： 团队没有重新训练这些顾问，而是给他们看一些**“参考案例”**。
- 初级版： 随便给几个例子。
- 高级版： 给那些和当前问题意思最接近的例子（比如都是关于“开心”的）。
数据清洗（Data Cleaning）： 团队发现，有时候给顾问看的例子里混进了“坏例子”（标签标错了）。于是，他们让三位顾问互相讨论，如果三个人都同意某个例子是“怪胎”（异常值），就把它踢出参考库。

比喻： 这就像在考试前，老师不直接教公式，而是给你看几道最相似的真题让你找感觉。而且，老师还会先帮你把那些印错答案的错题集挑出来扔掉，免得你被误导。

3. 最终决策： Ensemble Learning（集成学习）

角色：公正的“裁判长”

现在，我们有了一位“老练分析师”（混合 RoBERTa）和几位“博学顾问”（LLMs）。他们各自给出了一个分数，但谁对呢？

团队设计了一个**“裁判长”**（集成学习模型），他的工作是把大家的意见汇总起来：

简单平均： 大家投票，取平均值。
加权平均： 谁平时表现好，谁的声音就大一点（比如给 LLM 70% 的权重，给 RoBERTa 30%）。
堆叠（Ridge Stacking）： 这是一个更聪明的算法，它学习如何根据每个人的预测结果，自动调整权重，甚至结合一些传统的“词典规则”（VADER 特征，一种基于词汇的情感判断工具）来辅助判断。

比喻： 就像**“三个臭皮匠，顶个诸葛亮”。老练分析师稳，博学顾问灵，裁判长负责把他们的智慧融合，剔除噪音，得出一个最接近真相**的最终分数。

4. 比赛结果与遗憾

成绩斐然： 在开发集（相当于模拟考）上，这种“组合拳”策略效果惊人。相比单独使用某一种方法，错误率（RMSE）大幅下降，相关性评分显著提高。特别是在“餐厅”和“笔记本电脑”这两个领域的测试中，混合模型的表现远超单独使用回归或分类模型。
意外插曲： 由于一些不可预见的突发情况（可能是时间或技术限制），团队最终只提交了“老练分析师”（混合 RoBERTa）的结果，没有把“博学顾问”和“裁判长”的终极组合提交上去。
排名： 即使只用了“老练分析师”，他们的成绩依然非常亮眼，在笔记本电脑数据上排名第 16，在餐厅数据上排名第 22，远超许多竞争对手和基准线。

总结

这篇论文的核心思想就是：不要只依赖一种方法。

用混合模型（回归 + 分类）来保证稳定性。
用大语言模型来利用海量知识和上下文理解。
用集成学习把两者的优点1+1>2。

虽然因为意外没能展示最强的“终极形态”，但他们的实验已经证明：把传统的深度学习模型和最新的大语言模型结合起来，是解决复杂情感分析问题的黄金法则。未来，他们计划把这套系统推广到更多语言（如中文）和更多场景中去。

Each language version is independently generated for its own context, not a direct translation.

以下是基于论文《QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis》的详细技术总结：

1. 研究背景与问题定义

任务背景：本文参与的是 SemEval-2026 第 3 项任务，专注于维度方面情感分析（Dimensional Aspect-Based Sentiment Analysis, DimABSA）。具体参与的是 Track-A1（DimASR），即基于情感维度（效价 Valence 和唤醒度 Arousal）的回归预测任务。
核心挑战：
- 传统 ABSA 任务通常关注离散的极性分类（正面/负面），而本任务要求预测连续的数值（效价和唤醒度），这增加了建模难度。
- 现有方法面临数据稀缺、领域适应性差以及难以建模复杂的“方面 - 观点”关系等挑战。
- 如何在保持预测稳定性的同时，提高对连续情感强度的回归精度是主要难点。

2. 方法论 (Methodology)

QuadAI 团队提出了一种结合**混合编码器（Hybrid Encoder）与大语言模型（LLMs）**的集成学习框架。

2.1 混合 RoBERTa 编码器 (Hybrid RoBERTa)

这是系统的核心基础模型，旨在结合回归的连续性和分类的稳定性。

架构设计：基于 RoBERTa 作为编码器，并行连接两个输出头：
1. 回归头 (Regression Head)：直接预测连续的效价和唤醒度数值。
2. 离散分类头 (Discretized Classification Head)：将连续的目标空间划分为 $n$ 个区间（bins），通过 Softmax 和交叉熵损失进行多分类预测，最后计算期望值。
融合策略：最终预测值 $\hat{y}$ 是回归输出 $\hat{y}_{reg}$ 和分类期望值 $\hat{y}_{cls}$ 的加权平均（ $w=0.5$ ）：
$\hat{y} = w\hat{y}_{reg} + (1-w)\hat{y}_{cls}$
优势：离散化分类头提供了更稳定的训练信号和置信度表达，弥补了纯回归模型在训练不稳定性上的不足。

2.2 大语言模型 (LLMs) 与上下文学习

提示工程策略：探索了 Zero-shot（零样本）、随机 Few-shot（随机示例）和基于语义相似性的 Few-shot（语义相似示例）策略。
数据清洗 (Data Cleaning)：
- 利用 HDBScan 聚类算法对训练集实例进行聚类。
- 使用三个不同的 LLM（Gemini, Claude, GPT-5.2）作为“裁判”，识别并剔除聚类中的异常值（Outliers），确保用于上下文学习的示例质量。
模型选择：在数据清洗后，选用表现最佳的 "Gemini" 模型进行最终的提示生成和预测。

2.3 集成学习 (Ensemble Learning)

采用预测级融合 (Prediction-level Fusion / Late Fusion) 策略，将 Hybrid RoBERTa 和 LLM 的预测结果进行结合。

组合器 (Combiner)：
- 简单平均：直接取平均值。
- 加权平均：通过网格搜索优化权重。
- Ridge 回归堆叠 (Ridge Stacking)：将各模型的预测值以及可选的外部特征（如 VADER 情感词典特征）作为输入，训练一个线性回归模型来生成最终预测。
特征增强：尝试引入 VADER 的复合情感分数（compound, pos, neu, neg）作为辅助特征，但实验表明在特定设置下并未带来显著提升，甚至可能引入噪声。

3. 关键实验结果

实验主要在开发集（Development Set）上进行，涵盖了 Laptop（笔记本）和 Restaurant（餐厅）两个领域，以及 Track-B（环境领域）。

混合模型 vs. 单一模型：
- 在 Laptop 开发集上，Hybrid RoBERTa 的 RMSE 为 0.7361，优于纯回归模型 (0.7836) 和纯分类期望模型 (0.7898)。
- 在 Restaurant 开发集上，混合模型表现提升更为显著，MSE 从回归模型的 0.8176 降至 0.4919（几乎减半），RMSE 降至 0.7013。
LLM 的表现：
- 经过清洗和优化的 LLM (ICL) 在 Laptop 集上取得了更低的 RMSE (0.695) 和更高的平均皮尔逊相关系数 (0.757)，优于 Hybrid RoBERTa。
集成学习的效果：
- 将 Hybrid RoBERTa 与 LLM 进行集成后，性能进一步提升。
- 在 Laptop 集上，加权集成（Weighted）和 Ridge 堆叠（Stacking）均将 RMSE 降低至 0.6344，显著优于单一模型。
- 在 Restaurant 和 Track-B 数据上，混合模型同样表现出最佳性能，证明了编码器与 LLM 在维度情感分析上的互补性。

4. 主要贡献

提出混合预测架构：创新性地设计了结合连续回归与离散分类的 RoBERTa 变体，通过平均策略提高了情感回归任务的稳定性和精度。
构建 LLM 数据清洗流程：提出了一种基于多模型投票和聚类分析的 LLM 示例筛选机制，有效提升了上下文学习（In-Context Learning）的输入质量。
验证集成学习的有效性：证明了将轻量级编码器模型与强大的 LLM 进行预测级融合，能够显著降低 RMSE 并提高相关性指标，实现了"1+1>2"的效果。
开源资源：尽管受限于提交时间未能提交所有优化版本，但团队承诺公开代码和资源，促进开放科学。

5. 局限性与未来工作

局限性：
- 由于时间紧迫，LLM 和集成学习策略仅在开发集上进行了测试，未能在最终的测试集上提交所有优化版本。
- 目前主要基于英语数据，未充分验证跨语言（如中文）的泛化能力。
- 在集成学习中，VADER 特征并未带来预期提升，表明简单的词典特征可能与神经模型特征存在冗余。
未来方向：
- 在测试集上离线验证完整系统性能。
- 探索更多样化的集成方法（如更复杂的堆叠策略）。
- 引入自动化超参数调优工具（如 OPTUNA）。
- 扩展至多语言场景和其他情感维度（如支配性 Dominance）。

6. 总结与意义

QuadAI 的系统展示了在维度情感分析任务中，**“轻量级编码器 + 大语言模型”**的混合范式具有巨大潜力。通过 Hybrid RoBERTa 提供稳定的基础预测，并利用 LLM 的推理能力捕捉细微的情感差异，再通过集成学习融合两者优势，该方案在降低误差（RMSE）和提升相关性方面取得了显著成果。这项工作为处理复杂、连续的情感回归任务提供了新的技术路径，强调了结合不同模型架构（判别式与生成式）在 NLP 任务中的重要性。