AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

In diesem Papier stellt das AILS-NTUA-Team sein System für die SemEval-2026-Aufgabe 3 vor, das durch eine effiziente Kombination aus feingetunten Encoder-Modellen für die Sentiment-Regression und loRA-basiertem Instruction-Tuning von Large Language Models für die Extraktion von Tripletts und Quadrupletts eine leistungsstarke, ressourcenschonende Lösung für multidimensionale aspektbasierte Sentimentanalyse in mehreren Sprachen und Domänen bietet.

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou, Paraskevi Tzouveli, Athanasios Voulodimos, Giorgos Stamou

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache, bildhafte Erklärung der Forschung des AILS-NTUA-Teams, als würde man sie einem Freund beim Kaffee erzählen:

🌍 Die große Reise: Gefühle in Zahlen verwandeln

Stellt euch vor, ihr lest eine Restaurantbewertung: "Das Essen war fantastisch, aber der Service war langsam."
Ein normales Computerprogramm würde vielleicht nur sagen: "Das ist positiv" oder "Das ist negativ". Aber das ist zu grob.

Das Team von AILS-NTUA (aus Athen) hat sich für den Wettbewerb SemEval-2026 eine viel feinere Aufgabe vorgenommen: Sie wollten nicht nur wissen, ob etwas gut oder schlecht ist, sondern wie gut und wie intensiv.

Stellt euch Gefühle wie ein Farbrad vor.

  • Valence (Wertigkeit): Wie "hell" oder "dunkel" ist die Farbe? (Ist es ein strahlendes Gelb für "Super!" oder ein trübes Grau für "Schrecklich"?).
  • Arousal (Erregung): Wie "laut" oder "ruhig" ist die Farbe? (Ist es ein aufregendes, knalliges Rot oder ein sanftes, ruhiges Blau?).

Die Aufgabe war also: Für jedes Wort in einem Text (z. B. "Essen" oder "Service") zwei Zahlen zwischen 1 und 9 zu finden, die diese beiden Gefühlsdimensionen beschreiben.


🛠️ Das Werkzeug: Ein cleveres, zweigeteiltes Team

Das Team hat nicht einfach einen riesigen, dicken Roboter gebaut, der alles versucht zu lernen. Stattdessen haben sie sich wie ein Schweizer Taschenmesser verhalten: Für jede Aufgabe das passende Werkzeug.

1. Der präzise Messer-Macher (Für das "Wie stark?")

Aufgabe: Die genauen Zahlen für die Gefühle (Valence & Arousal) vorhersagen.
Die Lösung: Sie haben spezialisierte "Kleinmeister" (kleine, effiziente KI-Modelle) für jede Sprache trainiert.

  • Die Analogie: Stellt euch vor, ihr müsst in verschiedenen Ländern die Temperatur messen. Anstatt einen riesigen, schweren Thermometer zu transportieren, der in jedem Klima funktioniert, nehmen sie für Deutschland ein deutsches, für Japan ein japanisches Thermometer. Jedes ist perfekt auf das lokale Klima (die Sprache) abgestimmt.
  • Das Ergebnis: Diese kleinen Modelle waren oft genauer als die riesigen, allgemeinen KI-Riesen, weil sie sich auf ihre spezifische Aufgabe konzentrieren konnten.

2. Der strukturierte Detektiv (Für das "Wer sagt was?")

Aufgabe: Die komplexen Sätze in eine Liste zerlegen: Wer ist das Thema? Was wurde gesagt? Welche Gefühlszahl gehört dazu?
Die Lösung: Hier nutzten sie große Sprachmodelle (wie Llama oder Qwen), aber mit einem Trick.

  • Die Analogie: Stellt euch einen riesigen, schlauen Bibliothekar vor (den großen KI-Modell). Wenn ihr ihn einfach fragt, antwortet er vielleicht in ganzen Sätzen. Das ist aber schwer zu verarbeiten.
    Das Team hat dem Bibliothekar eine spezielle Anweisung gegeben: "Schreibe mir die Antwort nicht als Text, sondern nur als saubere JSON-Liste, genau wie in diesem Beispiel!"
    Sie haben dem Bibliothekar nicht das ganze Gehirn neu trainiert (was teuer und langsam wäre), sondern ihm nur eine kleine Notizkarte (LoRA-Adapter) in die Hand gedrückt, die ihm sagt: "Achte besonders auf diese Regel!". So bleibt der Bibliothekar schlau, wird aber extrem effizient.

🌐 Die Herausforderung: Viele Sprachen, viele Probleme

Der Wettbewerb war besonders knifflig, weil er sechs Sprachen (Englisch, Chinesisch, Japanisch, Russisch, Tatarisch, Ukrainisch) und vier Themenbereiche (Restaurants, Laptops, Hotels, Finanzen) abdeckte.

  • Das Problem mit den "leeren Stellen": Manchmal steht in einer Bewertung: "Der Service war okay." Aber was genau war okay? Der Lächeln des Kellners? Die Schnelligkeit? Die KI muss hier manchmal raten, ob etwas "implizit" (unter der Oberfläche) gemeint ist. Das Team hat spezielle Regeln eingebaut, damit die KI nicht einfach "NULL" (nichts) als Ausrede benutzt, wenn es schwierig ist.
  • Die Übersetzungs-Falle: Das Team hat versucht, Texte aus schwierigen Sprachen (wie Tatarisch) ins Englische zu übersetzen, um sie dort zu analysieren.
    • Die Erkenntnis: Das war wie das Übersetzen eines Witzes. Der Witz funktioniert im Englischen, aber die Nuancen gehen verloren. Die Übersetzung brachte oft mehr "Rauschen" (Störungen) als Nutzen. Es war besser, die KI direkt in der Originalsprache zu trainieren, auch wenn die Datenmenge kleiner war.

🏆 Das Fazit: Weniger ist oft mehr

Die große Botschaft dieses Papiers ist: Man braucht nicht immer den größten und teuersten Computer, um die beste Arbeit zu leisten.

Das Team hat gezeigt, dass man durch kluge Kombinationen – kleine, spezialisierte Modelle für die Zahlen und große, aber "leicht gewichtete" Modelle für die Textanalyse – sehr gute Ergebnisse erzielt. Sie haben mit weniger Rechenleistung (nur eine Grafikkarte!) oft bessere Ergebnisse geliefert als Systeme, die viel größer waren.

Kurz gesagt: Sie haben keine riesige Bulldozer-Maschine gebaut, um einen Garten zu pflegen. Stattdessen haben sie einen Haufen kleiner, scharfer Gärtnerscheren und einen sehr gut ausgebildeten Gärtner genommen, der genau weiß, wo er schneiden muss. Und das Ergebnis war ein wunderschöner Garten.