An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

この論文は、発話生成における脳、筋肉、および構音器官の動きを同時に捉えるため、リアルタイム MRI、EEG、表面筋電図の同時取得と、それらの相互干渉を抑制する新しいアーチファクト除去パイプラインを提案するものである。

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

この論文は、スリランカの立法文書(1981 年から 2014 年の法律と法案)から約 200 万語を収集・精製し、情報抽出や要約などの自然言語処理タスクを支援するための大規模なシナ語専門コーパス「SinhaLegal」を提案し、その統計的特性や言語モデルへの適合性を評価したものである。

Minduli Lasandi, Nevidu Jayatilleke2026-03-06💬 cs.CL

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

本論文は、チャットアシスタント向けではなく企業や API 駆動型のアプリケーションにおける厳格な指示遂行能力を評価するため、実世界のユースケースに基づいた新しいベンチマーク「FireBench」を提案し、11 種類の LLM に対する評価結果を報告するものである。

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Free Lunch for Pass@kk? Low Cost Diverse Sampling for Diffusion Language Models

この論文は、拡散言語モデルのサンプリング過程に既存のサンプルから特徴空間を反発させるような軽量な介入を導入することで、再学習やビームサーチを必要とせず、計算コストをほとんど増やさずに多様性を高め、Pass@kk性能を向上させる手法を提案しています。

Sean Lamont, Christian Walder, Paul Montague + 2 more2026-03-06🤖 cs.AI

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

本論文は、シュワルツの価値理論に基づく定性分析タスクにおいて、LLM が集合的な指標では人間に匹敵する精度を示す一方で、価値の厳密な順位付けや専門家の不確実性パターンとの整合性において課題を抱えており、Qwen モデルやアンサンブル手法が最も有望であることを示した研究である。

Arina Kostina, Marios Dikaiakos, Alejandro Porcel + 1 more2026-03-06💬 cs.CL

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

この論文は、LLM の安全性調整(アライメント)が英語では機能するものの、日本語など他の言語では逆効果となり、集団的な病理や内面的な乖離を悪化させる「アライメントの逆転現象」を16言語にわたる多エージェントシミュレーションで実証し、言語空間の特性が安全性の成否を決定づけることを明らかにしています。

Hiroki Fukui2026-03-06🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

本論文は、意味的曖昧性の解消と構造的局所化の分離を可能にする動的識別連鎖思考(DD-CoT)と「反エコーチェンバー」アーキテクチャを導入し、心理言語学的マーカーの抽出と陰謀論の支持検出を統合的に処理する新しいエージェント型 LLM パイプラインを提案し、SemEval-2026 タスク 10 で高い性能を達成したことを報告するものである。

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

本論文は、SemEval-2026 第 3 タスクの多次元アスペクトベース感情分析(DimABSA)において、言語適応型エンコーダーの微調整と LoRA を用いた大規模言語モデルの指示微調整を組み合わせることで、多言語・多ドメイン環境下で効率的かつ高性能な感情分析を実現した AILS-NTUA システムを提案し、その有効性を示したものである。

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou + 3 more2026-03-06💬 cs.CL

Federated Heterogeneous Language Model Optimization for Hybrid Automatic Speech Recognition

本論文は、プライバシー保護を目的とした分散学習環境におけるハイブリッド自動音声認識システム向けに、異種言語モデルを効率的に統合する「マッチ・アンド・マージ」パラダイムと、強化学習を用いて収束を大幅に高速化したRMMAアルゴリズムを提案し、その有効性を複数のデータセットで実証したものである。

Mengze Hong, Yi Gu, Di Jiang + 4 more2026-03-06💬 cs.CL

LocalSUG: Geography-Aware LLM for Query Suggestion in Local-Life Services

本論文は、地理的基盤の欠如、暴露バイアス、推論遅延という課題を解決し、都市意識型候補マイニング、ビームサーチ駆動の GRPO 学習、および品質感知の高速化技術を採用した「LocalSUG」と呼ばれる地理意識型 LLM クエリ提案フレームワークを提案し、実環境での CTR 向上と無結果率の低下を実証したものである。

Jinwen Chen, Shuai Gong, Shiwen Zhang + 7 more2026-03-06💬 cs.CL

TimeWarp: Evaluating Web Agents by Revisiting the Past

本論文は、Web の進化に伴う UI やレイアウトの変化に対するエージェントの脆弱性を評価するベンチマーク「TimeWarp」を提案し、複数のバージョンにわたる軌跡を教師データとして活用する「TimeTraj」というアルゴリズムにより、エージェントの汎化性能と頑健性を大幅に向上させることを示しています。

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

MPCEval: A Benchmark for Multi-Party Conversation Generation

本論文は、マルチパーティ会話生成の評価における課題を解決するため、話者モデリングや内容の質、話者と内容の一貫性などの多次元指標を備えた新しい評価ベンチマーク「MPCEval」を提案し、単一のスコアでは捉えきれないモデルの特性を明らかにすることを目的としています。

Minxing Zhang, Yi Yang, Zhuofan Jia + 5 more2026-03-06🤖 cs.AI

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

本論文は、既存の MoE モデルの物理的な深さ・幅の制約を打破するため、レイヤー間でユニバーサルなエキスパートプールを再利用して「バーチャル幅」を実現し、ルーティング経路の爆発や負荷分散のミスマッチを解決する「Mixture of Universal Experts (MOUE)」を提案し、既存モデルのアップグレードを含め性能を大幅に向上させることを示しています。

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

この論文は、複数のファインチューニング済み大規模言語モデルを機能(予測行動)の観点から統合するために、ユークリッド空間の単純な平均ではなく、予測分布間の KL 距離を最小化するフィッシャー・ラオ多様体上のカルシェ平均を計算する新しい手法を提案し、モデルの多様性が増大しても表現の崩壊を防ぎながら高精度な統合を実現することを示しています。

Jiayu Wang, Zuojun Ye, Wenpeng Yin2026-03-06🤖 cs.LG

VRM: Teaching Reward Models to Understand Authentic Human Preferences

本論文は、LLM のアライメントにおいて従来の報酬モデルが抱える報酬ハッキングの問題を解決するため、人間の評価プロセスを模倣し高次元の目的重みと低次元のセマンティック特徴を潜在変数として変分推論で明示的にモデル化する「VRM(Variational Reward Modeling)」を提案し、理論的な一般化誤差の改善とベンチマーク実験による既存手法を上回る性能を実証したものである。

Biao Liu, Ning Xu, Junming Yang + 2 more2026-03-06💬 cs.CL