QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungsarbeit „QuadAI" von SemEval-2026, übersetzt in eine Geschichte mit alltäglichen Vergleichen.

Die große Aufgabe: Gefühle messen wie mit einem Thermometer

Stellen Sie sich vor, Sie lesen eine Restaurantbewertung: „Das Essen war okay, aber der Service war langsam."
Ein Computer muss nicht nur sagen, ob das positiv oder negativ ist. Er muss zwei Dinge messen:

Valenz (Valence): Wie positiv oder negativ ist es? (Von „sehr traurig" bis „glücklich").
Erregung (Arousal): Wie intensiv ist das Gefühl? (Von „langweilig" bis „aufgeregt").

Das ist wie ein Thermometer, das nicht nur Grad anzeigt, sondern auch, wie „heiß" die Emotion ist. Die Forscher von QuadAI wollten einen Computer bauen, der dieses Gefühl perfekt misst.

Die drei Bausteine ihres Systems

Die Forscher haben nicht nur einen Weg gewählt, sondern drei verschiedene „Experten" zusammengestellt, die zusammenarbeiten.

1. Der „Hybrid-Roboter" (RoBERTa)

Stellen Sie sich einen sehr klugen, aber etwas starren Roboter vor, der Bücher gelesen hat.

Das Problem: Wenn man ihn fragt, wie „glücklich" jemand ist, gibt er entweder eine genaue Zahl (z. B. 7,3) oder eine Kategorie (z. B. „ziemlich glücklich"). Beides hat Nachteile: Die Zahl kann schwanken, die Kategorie ist zu grob.
Die Lösung: Der Hybrid-Roboter macht beides gleichzeitig. Er schaut sich die Zahl an und die Kategorie. Dann nimmt er den Durchschnitt beider Antworten.
Die Analogie: Es ist wie ein Richter, der sowohl auf die genaue Uhrzeit schaut als auch auf das Gefühl „es war spät". Durch die Kombination wird er stabiler und macht weniger Fehler.

2. Die „KI-Gurus" (Large Language Models - LLMs)

Das sind die modernen Super-KIs (wie ChatGPT oder Gemini), die sehr gut darin sind, Kontext zu verstehen und zu „fühlen".

Der Trick: Die Forscher haben diese KIs nicht einfach nur gefragt. Sie haben ihnen erst einmal eine „Hausaufgabe" gegeben: „Hier sind 100 ähnliche Beispiele, wie Menschen sich ausdrücken. Jetzt schätze du mal."
Die Reinigung: Bevor die KIs loslegen durften, haben sie die Trainingsdaten gesäubert. Sie haben wie ein Qualitätskontrolleur geprüft: „Hey, dieses Beispiel passt gar nicht in die Gruppe, wirf es raus!" So lernten die KIs nur von den besten Beispielen.

3. Das „Team-Meeting" (Ensemble Learning)

Das ist der wichtigste Teil. Anstatt sich auf einen Experten zu verlassen, haben sie alle zusammengebracht.

Das Szenario: Der Hybrid-Roboter und die KI-Gurus haben ihre Vorhersagen abgegeben. Jetzt setzen sie sich an einen Tisch.
Die Entscheidung: Ein „Schiedsrichter" (ein mathematisches Modell) hört sich beide an. Er sagt: „Der Roboter war bei diesem Satz sehr sicher, die KI bei jenem." Er kombiniert die Meinungen zu einer einzigen, perfekten Antwort.
Der Zusatz: Sie haben sogar versucht, ein altes Wörterbuch-Tool (VADER) hinzuzufügen, das einfach nur nach positiven und negativen Wörtern sucht. Aber das war wie ein lauter Gast beim Meeting, der nur Unsinn redete – er hat das Ergebnis eher verschlechtert als verbessert. Also haben sie ihn wieder rausgeschickt.

Was ist herausgekommen?

Die Ergebnisse auf den Testdaten waren beeindruckend:

Alleine: Der Hybrid-Roboter war schon gut.
Alleine: Die KI-Gurus waren noch etwas besser.
Zusammen: Als sie das „Team-Meeting" abhielten, wurde das Ergebnis deutlich besser als jeder einzelne Experte allein. Der Fehler (RMSE) sank stark, und die Vorhersagen passten viel besser zur menschlichen Einschätzung.

Warum haben sie nicht alles gewonnen?

Die Forscher geben offen zu: Es gab einen Notfall. Sie konnten ihre besten Modelle (die Kombination aus Roboter + KI + Team-Meeting) nicht offiziell beim Wettkampf einreichen. Sie haben nur den „Hybrid-Roboter" allein eingereicht.

Das Ergebnis: Selbst nur mit dem Roboter allein landeten sie in der oberen Hälfte aller Teams.
Die Hoffnung: Da sie den Code und die Methoden veröffentlicht haben, können andere Forscher (und sie selbst) jetzt weiterarbeiten. Sie wollen das System noch verfeinern und auch auf andere Sprachen (wie Chinesisch) anwenden.

Zusammenfassung in einem Satz

Die Forscher haben einen cleveren Trick erfunden, bei dem ein stabiler, klassischer Computer und eine moderne, intuitive KI zusammenarbeiten, um menschliche Gefühle präziser zu messen als jeder von ihnen allein könnte – wie ein Team aus einem erfahrenen Richter und einem einfühlsamen Psychologen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis" auf Deutsch.

1. Problemstellung

Das Paper adressiert die Dimensionale Aspekt-basierte Sentiment-Analyse (DimABSA), speziell im Rahmen von SemEval-2026 Task 3. Im Gegensatz zur klassischen binären oder kategorischen Sentiment-Analyse zielt diese Aufgabe darauf ab, Emotionen in einem kontinuierlichen Raum zu modellieren.

Ziel: Vorhersage von zwei psychologischen Dimensionen für Aspekt-Äußerungen in Texten:
- Valenz (Valence): Positivität bis Negativität.
- Erregung (Arousal): Emotionale Intensität (hoch bis niedrig).
Herausforderungen: Die Aufgabe erfordert die Regression auf kontinuierliche Werte, was bei herkömmlichen Modellen oft zu Instabilität führt. Zudem bestehen Schwierigkeiten bei der Modellierung komplexer Aspekt-Meinungs-Beziehungen und der Datenknappheit in spezifischen Domänen (z. B. Laptop- und Restaurant-Bewertungen sowie Umweltschutz).

2. Methodik

Das Team von QuadAI entwickelte einen mehrstufigen Ansatz, der Encoder-basierte Modelle mit Large Language Models (LLMs) und Ensemble-Techniken kombiniert.

A. Hybrid-RoBERTa-Encoder

Das Kernstück des Systems ist ein hybrides Encoder-Modell auf Basis von RoBERTa, das zwei parallele Ausgabeköpfe nutzt, um die Vorhersagestabilität zu erhöhen:

Regressionskopf: Gibt einen kontinuierlichen Wert direkt aus.
Diskretisierter Klassifikationskopf: Teilt den kontinuierlichen Zielraum in $n$ Bins (Intervalle) auf. Dieser Kopf trainiert eine Wahrscheinlichkeitsverteilung über diese Bins mittels Cross-Entropy-Verlust. Der erwartete Wert wird als gewichtete Summe der Bins berechnet.
Fusion: Die endgültige Vorhersage ist der gewichtete Durchschnitt beider Ausgaben ( $\hat{y} = w \cdot \hat{y}_{reg} + (1-w) \cdot \hat{y}_{cls}$ $\overset{y}{^} = w \cdot \overset{y}{^}_{r e g} + (1 - w) \cdot \overset{y}{^}_{c l s}$ ).
- Vorteil: Die Kombination nutzt die Präzision der Regression und die Stabilität sowie das Konfidenzniveau der diskretisierten Klassifikation.

B. Large Language Models (LLMs) & In-Context Learning (ICL)

Für den LLM-Teil wurde ein Workflow entwickelt, der die Qualität der Eingabedaten für das In-Context-Learning optimiert:

Datenbereinigung: Nutzung von HDBScan zur Clustering der Trainingsdaten nach Valenz und Arousal. Drei verschiedene LLMs (Gemini, Claude, GPT-5.2) wurden eingesetzt, um Ausreißer in den Clustern zu identifizieren und zu entfernen.
Prompting-Strategien: Es wurden verschiedene Ansätze verglichen: Zero-Shot, zufällige Beispiele und semantisch ähnliche Beispiele (basierend auf Embedding-Similarität).
Modellauswahl: Gemini wurde als das leistungsfähigste Modell für die finale Prompting-Phase identifiziert.

C. Ensemble Learning (Prediction-Level Fusion)

Um die Stärken der beiden Ansätze zu vereinen, wurde ein Ensemble auf Vorhersageebene (Late Fusion) implementiert:

Architektur: Die Vorhersagen des Hybrid-RoBERTa und des LLMs werden kombiniert.
Methoden:
- Einfacher Durchschnitt.
- Gewichteter Durchschnitt (via Grid Search optimiert).
- Ridge-Regression Stacking: Ein Meta-Modell lernt die optimalen Gewichte für die Basis-Modelle und optional externe Merkmale (VADER-Sentiment-Scores: compound, pos, neu, neg).
Besonderheit: Um Label-Leakage zu vermeiden, wurden für das Stacking Out-of-Fold (OOF) Vorhersagen der Basis-Modelle verwendet.

3. Wichtige Beiträge

Hybrider Encoder-Ansatz: Die Einführung eines RoBERTa-Modells, das Regression und diskretisierte Klassifikation parallel trainiert und mittelt, um die Stabilität bei der Vorhersage kontinuierlicher Sentiment-Werte zu verbessern.
LLM-basierte Datenbereinigung: Ein innovativer Workflow, der mehrere LLMs nutzt, um Ausreißer in den Trainingsdaten für das In-Context-Learning automatisch zu filtern und so die Qualität der Few-Shot-Prompts zu erhöhen.
Effektives Ensemble: Der Nachweis, dass die Kombination von encoder-basierten Modellen (stark in der Struktur) und LLMs (stark im Kontextverständnis) durch Ridge-Stacking signifikant bessere Ergebnisse liefert als einzelne Modelle.
Open Science: Bereitstellung des Codes und der Ressourcen für die wissenschaftliche Gemeinschaft.

4. Ergebnisse

Die Experimente wurden auf den Entwicklungssätzen (Dev Sets) für die Domänen „Laptop" und „Restaurant" sowie für „Umweltschutz" (Track B) durchgeführt.

Hybrid vs. Einzelmodelle (Laptop Dev):
- Das Hybrid-Modell (RoBERTa) erreichte einen RMSE von 0,7361, was eine deutliche Verbesserung gegenüber dem reinen Regressionsmodell (0,7836) und dem reinen Bin-Modell (0,7898) darstellt.
- Der MSE wurde von 0,6140 (Regression) auf 0,5419 (Hybrid) gesenkt.
LLM-Leistung:
- Der optimierte LLM-Ansatz (mit ICL) erreichte einen noch niedrigeren RMSE von 0,695 und eine höhere mittlere Korrelation ( $\rho_{mean} = 0,757$ ) als das Hybrid-Modell allein.
Ensemble-Ergebnisse:
- Die Kombination aus Hybrid-RoBERTa und LLM durch Ridge-Stacking (ohne VADER-Features) erzielte den besten RMSE von 0,6344.
- Dies stellt eine signifikante Reduktion des Fehlers im Vergleich zu den besten Einzelmodellen dar.
- Hinweis: Die Integration von VADER-Features führte zu keiner Verbesserung und verschlechterte die Ergebnisse leicht, was darauf hindeutet, dass lexikalische Features in diesem Kontext redundant oder verrauscht waren.
Track B (Umweltschutz): Auch hier schnitt das Hybrid-Modell am besten ab, mit einem RMSE von 1,4022 im Vergleich zu 1,4243 (Regression).

5. Bedeutung und Fazit

Das Paper demonstriert erfolgreich, dass für die dimensionale Sentiment-Analyse keine einzelne Architektur ausreicht.

Synergie: Encoder-Modelle bieten Stabilität und Domänenanpassung, während LLMs durch In-Context-Learning feinere Nuancen erfassen können.
Praxisrelevanz: Der Ansatz zeigt, dass durch geschicktes Ensemble-Learning (insbesondere Ridge-Stacking) und Vorverarbeitung (Datenbereinigung durch LLMs) die Genauigkeit (RMSE) und Korrelation signifikant gesteigert werden können.
Einschränkungen & Ausblick: Aufgrund von Zeitmangel wurden die finalen Ensemble-Methoden und LLMs nicht auf dem Testset eingereicht (nur das Hybrid-Modell wurde für Task A1 eingereicht). Die Autoren planen, die Leistung auf Testsets offline zu validieren und das System auf andere Sprachen (z. B. Chinesisch) zu erweitern.

Zusammenfassend stellt QuadAI einen robusten, hybriden Ansatz vor, der den aktuellen Stand der Technik in der dimensionalen Sentiment-Analyse durch die intelligente Kombination von diskretisierten Klassifikationsstrategien und modernen LLM-Ensembles vorantreibt.