MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

本論文は、大規模言語モデルの安全性評価がテキスト中心である現状を踏まえ、音声・画像・動画を含むマルチモーダル入力に対するアライメントの一般化を検証するオープンソースの「MUSE」というプラットフォームを提案し、多ターン攻撃やモダリティ切り替え(ITMS)を用いた実験により、単一ターンでは拒絶率が高くても多ターン攻撃で安全性が大幅に低下することや、モダリティの影響がモデルファミリーに依存することを示しています。

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

この論文は、連続拡散言語モデルにおけるトークン丸めをボトルネックとして特定し、拡散を埋め込み空間で連続的に維持しつつ、文脈条件付きの自己回帰型デコーダーを用いてトークン化を行う「CoDAR」という新しいフレームワークを提案することで、生成品質を大幅に向上させ、強力な離散拡散モデルと競争可能なレベルに達したことを示しています。

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

本論文は、視覚的対比を利用することで視覚言語モデルの推論経路における幻覚を軽減し、自己改善フレームワーク「VC-STaR」と新規データセット「VisCoR-55K」を提案することで、既存手法や最先端の視覚推論データセットを用いたモデルを上回る推論能力の向上を実現したことを示しています。

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

本論文は、推薦システムや自然言語処理における生成器 - 評価器フレームワークの効率性と精度を向上させるため、K 個のシーケンスを単一のフォワードパスで並列処理し、相互比較を可能にする「FlashEvaluator」を提案し、快手のオンライン推薦システムでの実運用により持続的な収益増を実現したことを示しています。

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

ExpGuard: LLM Content Moderation in Specialized Domains

本論文は、金融・医療・法律といった専門領域におけるLLMの安全性を強化するため、専門用語や概念に特化した新しいガードレールモデル「ExpGuard」と、その学習・評価に用いる大規模な専門ドメインデータセット「ExpGuardMix」を提案し、既存の最先端モデルを上回る攻撃耐性を示したことを報告しています。

Minseok Choi, Dongjin Kim, Seungbin Yang + 5 more2026-03-04💬 cs.CL

Think, But Don't Overthink: Reproducing Recursive Language Models

本論文は、文脈を外部 REPL 環境に委譲する「再帰的言語モデル(RLM)」の枠組みを再現・拡張し、再帰深度を 1 から 2 に深めることで複雑な推論タスクでは精度が向上する一方、単純な検索タスクや深すぎる再帰では「過剰思考」により性能が低下し実行時間とコストが爆発的に増加することを示した。

Daren Wang2026-03-04💬 cs.CL

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

本論文は、LLM ベースの単一カーネル最適化の限界を克服し、マルチエージェント構造とルービックに基づくアジェンティック強化学習を統合することで、GPU プログラムの生成から検証までのエンドツーエンド処理をほぼ 100% の成功率で実現する自動化フレームワーク「StitchCUDA」を提案するものである。

Shiyang Li, Zijian Zhang, Winson Chen + 3 more2026-03-04💬 cs.CL

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

本論文は、オンラインプラットフォームにおける誤った情報や操作への耐性を高めるため、エージェントと意見の信頼性を動的に評価・再配分する「信頼性ガバナンス(Credibility Governance)」というメカニズムを提案し、シミュレーション環境 POLIS において、従来の投票や資本重み付け方式よりも真実への収束が速く、誤った経路依存に陥りにくいことを実証しています。

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

この論文は、マルチモーダル大規模言語モデルを用いたリアルタイムなゲーム動画解説生成において、微調整なしで人間の発話タイミングに合致した動的な間隔ベースのデコーディング手法を提案し、その有効性を検証するとともに多言語ベンチマークを公開したものである。

Anum Afzal, Yuki Saito, Hiroya Takamura + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

本論文は、マルチモーダル大規模言語モデルの真のクロスモーダル推論能力を評価し、単一モダリティで解ける低品質な問題によるバイアスを排除して効率的かつ信頼性の高いベンチマークを構築するための新しい枠組み「M3IRT」を提案するものである。

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

SemEval-2026 タスク 11 における多言語推論課題に対し、 syllogism を論理的な標準表現に変換し決定論的パースを適用する新規手法を提案することで、LLM の内容バイアスを大幅に低減し、複雑な微調整や活性化レベル介入に代わる競争力のある解決策として全サブタスクでトップ 5 入りを果たしたことを報告しています。

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

この論文は、誤情報に基づく巧妙なヘイトスピーチの分析を可能にするため、3 つの解釈可能な次元(対象、意図、含意)で注釈付けされた新しい多面的データセット「HateMirage」を提案し、説明可能な AI 研究における新たな基準を確立することを目的としています。

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

本論文は、LLM ベースのマルチエージェントシステムにおける通信トポロジー学習の不安定さと課題を解決するため、単一サンプルの絶対報酬に代わり、グループ内での相対的な性能に基づいてエッジの優位性を評価する「Graph-GRPO」という新しい最適化フレームワークを提案し、実験によりその有効性を実証したものである。

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

本論文は、LLM の数学指導能力を包括的に評価するための新しいベンチマーク「KMP-Bench」と大規模対話データセット「KMP-Pile」を提案し、最先端モデルが正解導出は得意だが教育的原則の適用に課題を抱えていること、そして教育的に豊かなデータによる微調整が効果的な AI 指導者開発に不可欠であることを示しています。

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

本論文は、大規模な実世界データセットを用いたベンチマークと自動階層化エラー分析を通じて、強力なマルチモーダル大規模言語モデル(MLLM)は従来の OCR 処理を伴う手法と同等のドキュメント情報抽出性能を画像入力のみで達成し得ることを示し、スキーマや指示の設計がその性能向上に重要であることを明らかにした。

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

この論文は、臨床診断などの高リスク分野における LLM エージェントの判断を検証するために、専門家のガイドラインに基づき証拠を蓄積・集約し、ベイズ回帰で較正された確率を生成する「GLEAN」という検証フレームワークを提案し、その有効性を実証したものである。

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL