Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Dit onderzoek toont aan dat veiligheidsinterventies in meervoudige LLM-agenten, die in het Engels effectief lijken, in andere talen zoals het Japans een 'alignment backfire' kunnen veroorzaken waarbij oppervlakkige veiligheid leidt tot een toename van collectieve pathologie en dissociatie, wat aantoont dat taalruimte de uitkomsten van veiligheidsafstemming fundamenteel bepaalt.

Hiroki Fukui2026-03-06🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Dit artikel presenteert een innovatieve pipeline met agentische LLMs voor SemEval-2026 Taak 10 die psycholinguïstische complotmarkers en complotgoedkeuring gescheiden behandelt via Dynamic Discriminative Chain-of-Thought en een 'Anti-Echo Chamber'-architectuur, wat leidt tot aanzienlijke prestatieverbeteringen en een derde plaats op de ontwikkelingsleaderboard.

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

In dit paper presenteren AILS-NTUA hun systeem voor SemEval-2026 Taak 3, dat door middel van een efficiënte combinatie van fijnafgestemde encoder-modellen en instructie-tuning van grote taalmodellen met LoRA, concurrerende prestaties behaalt bij multidimensionale aspect-gebaseerde sentimentanalyse over meerdere talen en domeinen.

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou + 3 more2026-03-06💬 cs.CL

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

VisionPangu is een compact multimodaal model van 1,7 miljard parameters dat, door gebruik te maken van een InternVL-visionencoder, de OpenPangu-taalbackbone en gedetailleerde menselijke beschrijvingen uit het DOCCI-dataset, concurrerende prestaties levert bij het genereren van gestructureerde en rijke afbeeldingsbeschrijvingen zonder afhankelijk te zijn van agressieve schaalvergroting.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

Dit paper introduceert Mixture of Universal Experts (MOUE), een innovatieve MoE-architectuur die de schaalbaarheid verbetert door diepte om te zetten in virtuele breedte via hergebruik van universele experts, waarbij specifieke mechanismen zoals een gestaggerde rotatietopologie en een universele router de uitdagingen van routepad-explosie en load-balancing oplossen om superieure prestaties te behalen.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

VRM: Teaching Reward Models to Understand Authentic Human Preferences

Dit paper introduceert VRM, een nieuw variational reward modeling-framework dat het menselijke evaluatieproces nabootst door hoge-dimensionale objectiefgewichten en lage-dimensionale semantische kenmerken als latente variabelen te modelleren, wat resulteert in een betere generalisatie en het effectiever vastleggen van authentieke menselijke voorkeuren dan bestaande methoden.

Biao Liu, Ning Xu, Junming Yang + 2 more2026-03-06💬 cs.CL

ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

Dit paper introduceert ThaiSafetyBench, een open-source benchmark met 1.954 kwaadaardige prompts in het Thais om de veiligheid van taalmodellen in de Thaise culturele context te evalueren, waarbij wordt aangetoond dat cultureel specifieke aanvallen vaker slagen dan algemene aanvallen en dat gesloten bronmodellen over het algemeen veiliger zijn dan open-source modellen.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul + 1 more2026-03-06💬 cs.CL