Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Cette étude démontre que les interventions d'alignement sur les grands modèles de langage, bien qu'efficaces en anglais, provoquent un « contre-coup d'alignement » dans d'autres langues comme le japonais, où elles exacerbent la pathologie collective et la dissociation interne en raison de contraintes culturelles et linguistiques inhérentes aux données d'entraînement.

Hiroki Fukui2026-03-06🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Ce papier présente un pipeline innovant d'agents LLM pour la tâche 10 de SemEval-2026, qui combine une extraction de marqueurs psycholinguistiques via une chaîne de pensée discriminative dynamique et une détection d'adhésion aux théories du complot grâce à une architecture « Anti-Chambre d'Écho », permettant d'atteindre des performances significativement supérieures aux modèles de base.

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

Ce papier présente le système AILS-NTUA pour la tâche 3 de SemEval-2026, qui combine un fine-tuning de modèles encodeurs et un réglage par instructions de grands modèles de langage via LoRA pour réaliser une analyse de sentiment basée sur les aspects multidimensionnelle multilingue avec une efficacité paramétrique et des performances compétitives.

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou + 3 more2026-03-06💬 cs.CL

Federated Heterogeneous Language Model Optimization for Hybrid Automatic Speech Recognition

Cet article propose un paradigme de fusion et d'optimisation hétérogène pour les modèles de langage dans les systèmes de reconnaissance automatique de la parole fédérés, introduisant deux algorithmes (GMMA et RMMA) qui permettent d'obtenir une meilleure généralisation et une convergence jusqu'à sept fois plus rapide que les méthodes de base.

Mengze Hong, Yi Gu, Di Jiang + 4 more2026-03-06💬 cs.CL

LocalSUG: Geography-Aware LLM for Query Suggestion in Local-Life Services

Le papier présente LocalSUG, un cadre de suggestion de requêtes basé sur les LLM et adapté aux services de vie locale, qui surmonte les défis de l'ancrage géographique, du biais d'exposition et de la latence grâce à des stratégies de minage de candidats, un algorithme GRPO optimisé et des techniques d'accélération, démontrant ainsi une amélioration significative du taux de clic et une réduction des résultats nuls lors de tests en ligne à grande échelle.

Jinwen Chen, Shuai Gong, Shiwen Zhang + 7 more2026-03-06💬 cs.CL

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Ce papier présente VisionPangu, un assistant multimodal compact de 1,7 milliard de paramètres qui améliore la génération de légendes d'images détaillées grâce à un alignement multimodal efficace et à l'utilisation de descriptions humaines denses du jeu de données DOCCI, démontrant ainsi qu'une mise à l'échelle agressive n'est pas nécessaire pour obtenir des performances compétitives.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

Ce papier présente MOUE, une généralisation des modèles Mixture-of-Experts qui introduit une « largeur virtuelle » en réutilisant un pool d'experts universels à travers les couches, surmontant ainsi les limites d'échelle traditionnelles grâce à une topologie en rotation décalée, un équilibrage de charge adapté à la profondeur et un routeur universel, ce qui permet d'obtenir des performances supérieures aux modèles MoE classiques.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

VRM: Teaching Reward Models to Understand Authentic Human Preferences

Ce papier présente VRM, un nouveau cadre de modélisation variationnelle des récompenses qui améliore l'alignement des grands modèles de langage en imitant le processus d'évaluation humaine via l'inférence de variables latentes représentant les poids des objectifs et les caractéristiques sémantiques, surpassant ainsi les méthodes traditionnelles dans la capture des préférences authentiques.

Biao Liu, Ning Xu, Junming Yang + 2 more2026-03-06💬 cs.CL

ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

Ce travail présente ThaiSafetyBench, un benchmark open-source de 1 954 prompts malveillants en thaï conçu pour évaluer la sécurité des modèles de langage dans un contexte culturel spécifique, révélant que les attaques ancrées dans la culture thaïlandaise sont plus efficaces que les attaques générales et que les modèles open-source sont moins robustes que leurs équivalents propriétaires.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul + 1 more2026-03-06💬 cs.CL

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

Cette recherche propose MUTEX, un cadre combinant le transformateur multilingue XLM-RoBERTa et des champs aléatoires conditionnels (CRF) pour détecter avec succès des spans toxiques au niveau des tokens dans la langue ourdoue, atteignant un score F1 de 60 % et constituant la première référence supervisée pour cette tâche.

Inayat Arshad, Fajar Saleem, Ijaz Hussain2026-03-06🤖 cs.AI