cs.CL 件の論文 | Gist.Science

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

この論文は、LLM の安全性調整（アライメント）が英語では機能するものの、日本語など他の言語では逆効果となり、集団的な病理や内面的な乖離を悪化させる「アライメントの逆転現象」を16言語にわたる多エージェントシミュレーションで実証し、言語空間の特性が安全性の成否を決定づけることを明らかにしています。

Hiroki Fukui2026-03-06🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

本論文は、意味的曖昧性の解消と構造的局所化の分離を可能にする動的識別連鎖思考（DD-CoT）と「反エコーチェンバー」アーキテクチャを導入し、心理言語学的マーカーの抽出と陰謀論の支持検出を統合的に処理する新しいエージェント型 LLM パイプラインを提案し、SemEval-2026 タスク 10 で高い性能を達成したことを報告するものである。

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL

← 前へ次へ →

cs.CL

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

Federated Heterogeneous Language Model Optimization for Hybrid Automatic Speech Recognition

LocalSUG: Geography-Aware LLM for Query Suggestion in Local-Life Services

TimeWarp: Evaluating Web Agents by Revisiting the Past

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Replaying pre-training data improves fine-tuning

When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

MPCEval: A Benchmark for Multi-Party Conversation Generation

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

VRM: Teaching Reward Models to Understand Authentic Human Preferences

ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation

Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure

NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI