Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

この論文は、LLM の安全性調整(アライメント)が英語では機能するものの、日本語など他の言語では逆効果となり、集団的な病理や内面的な乖離を悪化させる「アライメントの逆転現象」を16言語にわたる多エージェントシミュレーションで実証し、言語空間の特性が安全性の成否を決定づけることを明らかにしています。

Hiroki Fukui2026-03-06🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

本論文は、意味的曖昧性の解消と構造的局所化の分離を可能にする動的識別連鎖思考(DD-CoT)と「反エコーチェンバー」アーキテクチャを導入し、心理言語学的マーカーの抽出と陰謀論の支持検出を統合的に処理する新しいエージェント型 LLM パイプラインを提案し、SemEval-2026 タスク 10 で高い性能を達成したことを報告するものである。

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

本論文は、SemEval-2026 第 3 タスクの多次元アスペクトベース感情分析(DimABSA)において、言語適応型エンコーダーの微調整と LoRA を用いた大規模言語モデルの指示微調整を組み合わせることで、多言語・多ドメイン環境下で効率的かつ高性能な感情分析を実現した AILS-NTUA システムを提案し、その有効性を示したものである。

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou + 3 more2026-03-06💬 cs.CL

Federated Heterogeneous Language Model Optimization for Hybrid Automatic Speech Recognition

本論文は、プライバシー保護を目的とした分散学習環境におけるハイブリッド自動音声認識システム向けに、異種言語モデルを効率的に統合する「マッチ・アンド・マージ」パラダイムと、強化学習を用いて収束を大幅に高速化したRMMAアルゴリズムを提案し、その有効性を複数のデータセットで実証したものである。

Mengze Hong, Yi Gu, Di Jiang + 4 more2026-03-06💬 cs.CL

LocalSUG: Geography-Aware LLM for Query Suggestion in Local-Life Services

本論文は、地理的基盤の欠如、暴露バイアス、推論遅延という課題を解決し、都市意識型候補マイニング、ビームサーチ駆動の GRPO 学習、および品質感知の高速化技術を採用した「LocalSUG」と呼ばれる地理意識型 LLM クエリ提案フレームワークを提案し、実環境での CTR 向上と無結果率の低下を実証したものである。

Jinwen Chen, Shuai Gong, Shiwen Zhang + 7 more2026-03-06💬 cs.CL

TimeWarp: Evaluating Web Agents by Revisiting the Past

本論文は、Web の進化に伴う UI やレイアウトの変化に対するエージェントの脆弱性を評価するベンチマーク「TimeWarp」を提案し、複数のバージョンにわたる軌跡を教師データとして活用する「TimeTraj」というアルゴリズムにより、エージェントの汎化性能と頑健性を大幅に向上させることを示しています。

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

MPCEval: A Benchmark for Multi-Party Conversation Generation

本論文は、マルチパーティ会話生成の評価における課題を解決するため、話者モデリングや内容の質、話者と内容の一貫性などの多次元指標を備えた新しい評価ベンチマーク「MPCEval」を提案し、単一のスコアでは捉えきれないモデルの特性を明らかにすることを目的としています。

Minxing Zhang, Yi Yang, Zhuofan Jia + 5 more2026-03-06🤖 cs.AI

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

本論文は、既存の MoE モデルの物理的な深さ・幅の制約を打破するため、レイヤー間でユニバーサルなエキスパートプールを再利用して「バーチャル幅」を実現し、ルーティング経路の爆発や負荷分散のミスマッチを解決する「Mixture of Universal Experts (MOUE)」を提案し、既存モデルのアップグレードを含め性能を大幅に向上させることを示しています。

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

この論文は、複数のファインチューニング済み大規模言語モデルを機能(予測行動)の観点から統合するために、ユークリッド空間の単純な平均ではなく、予測分布間の KL 距離を最小化するフィッシャー・ラオ多様体上のカルシェ平均を計算する新しい手法を提案し、モデルの多様性が増大しても表現の崩壊を防ぎながら高精度な統合を実現することを示しています。

Jiayu Wang, Zuojun Ye, Wenpeng Yin2026-03-06🤖 cs.LG

VRM: Teaching Reward Models to Understand Authentic Human Preferences

本論文は、LLM のアライメントにおいて従来の報酬モデルが抱える報酬ハッキングの問題を解決するため、人間の評価プロセスを模倣し高次元の目的重みと低次元のセマンティック特徴を潜在変数として変分推論で明示的にモデル化する「VRM(Variational Reward Modeling)」を提案し、理論的な一般化誤差の改善とベンチマーク実験による既存手法を上回る性能を実証したものである。

Biao Liu, Ning Xu, Junming Yang + 2 more2026-03-06💬 cs.CL

ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

この論文は、英語中心の安全性評価の限界を克服し、タイの文化的文脈に特化した攻撃を含む1,954の悪意あるプロンプトで構成されるオープンソースベンチマーク「ThaiSafetyBench」を提案し、24の言語モデルを評価して文化的文脈に特化した攻撃の脆弱性を明らかにするとともに、再現性とコスト効率を向上させるための分類器とリーダーボードを公開したものです。

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul + 1 more2026-03-06💬 cs.CL

HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation

この論文は、大規模言語モデルによる制約付き長文生成の課題を解決するため、グローバルな構造と制約の計画、および条件付きテキスト生成を階層的に最適化し、閉ループフィードバックを通じて両者を協調させる「HiFlow」という新しいフレームワークを提案するものです。

Yifan Zhu, Guanting Chen, Bing Wei + 1 more2026-03-06💬 cs.CL

NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension

本論文は、低リソース言語への大規模言語モデル拡張において、層レベルではなく個々のニューロンレベルの多様性を分析して専門家の割り当てを最適化する「NeuronMoE」を提案し、Llama-3.2-3B での実験により、ベースラインと同等の性能を維持しつつパラメータ数を約 40% 削減できることを実証しています。

Rongzhi Li, Hitomi Yanaka2026-03-06💬 cs.CL

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

本論文は、単語レベルで注釈されたデータセットを用いて、XLM-RoBERTa と CRF を組み合わせた「MUTEX」というフレームワークを提案し、コードスイッチングや形態論的変異などの課題を克服することで、ウルドゥー語の毒性スパン検出において初めて 60% のトークンレベル F1 スコアを達成したことを報告しています。

Inayat Arshad, Fajar Saleem, Ijaz Hussain2026-03-06🤖 cs.AI