AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

Each language version is independently generated for its own context, not a direct translation.

De AILS-NTUA-papier: Een slimme manier om gevoelens in reviews te meten

Stel je voor dat je een restaurantbezoek doet en je schrijft een review: "Het eten was geweldig, maar de bediening was traag."

In de oude wereld van computerwetenschap keken computers alleen naar woorden als "geweldig" (positief) of "traag" (negatief). Maar mensen zijn complexer. "Geweldig" kan een zachte glimlach zijn of een uitbundig applaus. "Traag" kan een klein ergernisje zijn of pure woede.

Het team van AILS-NTUA (een onderzoeksgroep van de Technische Universiteit van Athene) heeft een nieuw systeem gebouwd voor een wereldwijde wedstrijd (SemEval-2026) om dit veel preciezer te doen. Ze noemen het DimABSA. Laten we uitleggen hoe ze dit aanpakken, met wat creatieve vergelijkingen.

1. Het Probleem: Van "Goed/Slecht" naar "Hoe goed en hoe intens?"

Stel je voor dat je een thermometer hebt. De oude computers konden alleen zeggen: "Het is warm" of "Het is koud".
De nieuwe methode van AILS-NTUA is als een slimme thermostaat met twee knoppen:

Valence (Waarde): Hoe positief of negatief is het gevoel? (Van heel somber tot euforisch).
Arousal (Opwinding): Hoe intens is het gevoel? (Van een zachte fluistering tot een schreeuw).

Met deze twee knoppen kunnen ze niet alleen zeggen dat de bediening "negatief" was, maar ook hoe negatief en of het een kalmere ergernis was of een explosieve woede.

2. De Drie Opdrachten: Het "Drie-in-één" Pakket

Het team moest drie verschillende puzzels oplossen, allemaal in meerdere talen (zoals Engels, Chinees, Japans, Russisch, Tatar en Oekraïens) en over verschillende onderwerpen (restaurants, laptops, hotels, financiën).

Opdracht 1: De Emotie-thermometer (DimASR)
- De taak: Je krijgt een zin en een onderwerp (bijv. "het eten"). De computer moet twee getallen geven: hoe positief/negatief en hoe intens.
- De oplossing: Ze gebruikten kleine, gespecialiseerde vertalers. Denk hierbij aan een team van lokale experts. Voor de Engelse taal namen ze een expert die perfect Engels spreekt, voor het Russisch een andere. Ze zijn niet de grootste en zwaarste modellen, maar ze zijn heel goed getraind op hun specifieke taal. Dit is efficiënter dan één gigantische robot die alles moet weten.
Opdracht 2: De Drie-delige Detective (DimASTE)
- De taak: De computer moet een zin lezen en er drie dingen uit halen: Het onderwerp (wat?), het oordeel (wat wordt er gezegd?) en de emotie (hoe voelt het?).
- Voorbeeld: ["Eten", "geweldig", "zeer positief en intens"].
- De oplossing: Ze gebruikten grote taalmodellen (LLMs) die ze hebben "opgeleid" met een slimme truc. In plaats van de hele zware computer opnieuw te leren (wat heel duur en langzaam is), plakten ze een klein, flexibel pakje (LoRA) op de grote computer. Het is alsof je een gewone auto niet vervangt door een racewagen, maar er een race-stuur en een turbo op zet. De auto blijft licht, maar rijdt als een racewagen.
Opdracht 3: De Vier-delige Puzzel (DimASQP)
- De taak: Dit is de moeilijkste versie. Nu moeten ze ook nog de categorie toevoegen. Dus niet alleen "eten", maar "eten # kwaliteit".
- De oplossing: Dezelfde "race-stuur" truc als hierboven. Ze leerden de computer om de antwoorden in een strakke lijst (JSON) te schrijven, zodat de computer niet gaat verzinnen, maar precies doet wat gevraagd wordt.

3. De Creatieve Trucs van het Team

Hoe maak je dit werkend voor talen als Tatar of Oekraïens, waar er niet zoveel trainingsdata is?

De "Vertaal-Valstrik":
Ze dachten eerst: "Laten we alle reviews in het Engels vertalen, dan trainen we één grote Engelse expert, en vertalen we de antwoorden terug."
- Het resultaat: Dit werkte niet goed. Het was alsof je een Italiaans gerecht vertaalt naar het Nederlands en dan probeert te koken alsof je in Nederland bent. De nuances en uitdrukkingen gaan verloren. De computer raakt in de war door de vertaling. Het team leerde dat het beter is om een lokale expert (een model voor die specifieke taal) te hebben, zelfs als die wat kleiner is.
De "Lichtgewicht" Filosofie:
Veel andere teams probeerden de zwaarste, duurste supercomputers (modellen met 70 miljard parameters of meer) te gebruiken. Het AILS-team gebruikte modellen die veel kleiner en lichter zijn (ongeveer 14 miljard parameters).
- De metafoor: Het is het verschil tussen een tank en een sportwagen. De tank is zwaar en kan veel dragen, maar hij is traag en verbruikt veel brandstof. De sportwagen is snel, wendbaar en doet het werk net zo goed, maar dan met minder brandstof. Hun "sportwagens" presteerden vaak beter dan de "tanks" van de concurrentie.

4. Wat was het resultaat?

Het team deed het uitstekend!

Ze waren vaak sneller en goedkoper in training dan de grote concurrenten.
Ze presteerden beter dan de basismodellen die de wedstrijdorganisatoren hadden gegeven.
Ze bewezen dat je niet per se de zwaarste, duurste computer nodig hebt om gevoelens in tekst perfect te begrijpen. Soms is een slimme, lichte en goed getrainde "sportwagen" beter dan een zware tank.

Kortom:
Het AILS-NTUA-team heeft laten zien dat je gevoelens in tekst niet alleen als "goed" of "slecht" kunt zien, maar als een kleurenpalet van intensiteit. En je hebt daarvoor geen gigantische, energieverslindende machine voor nodig; een slimme, lichte en goed opgeleide computer doet het werk net zo goed, en soms zelfs beter.

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

1. Het Probleem: Van "Goed/Slecht" naar "Hoe goed en hoe intens?"

2. De Drie Opdrachten: Het "Drie-in-één" Pakket

3. De Creatieve Trucs van het Team

4. Wat was het resultaat?

Overzicht

Probleemdefinitie en Dataset

Methodologie

1. DimASR: Parameter-efficiënte Regressie

2. DimASTE & DimASQP: Instruction-Tuned Generatie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

1. Het Probleem: Van "Goed/Slecht" naar "Hoe goed en hoe intens?"

2. De Drie Opdrachten: Het "Drie-in-één" Pakket

3. De Creatieve Trucs van het Team

4. Wat was het resultaat?

Overzicht

Probleemdefinitie en Dataset

Methodologie

1. DimASR: Parameter-efficiënte Regressie

2. DimASTE & DimASQP: Instruction-Tuned Generatie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models