Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

本論文は、事前学習段階で専門家の剪定と再編成を行う「Layer-Adaptive Expert Pruning(LAEP)」アルゴリズムを提案し、これにより事前学習効率を 49% 向上させつつ総パラメータ数を 33.3% 削減した、企業向けタスクに特化した 10100 億パラメータの MoE 型大規模言語モデル「Yuan3.0 Ultra」を開発したことを報告しています。

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

この論文は、サッカーのハイライト映像から人間が重要とみなす瞬間を特定するタスクにおいて、最先端のマルチモーダル基盤モデルが偶然レベルに近い性能しか示さず、単一モダリティへの依存やクロスモーダルな情報の統合不足が課題であることを明らかにし、モジュール化されたアーキテクチャと補完的な学習手法の必要性を提言しています。

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

本論文は、単一のモデルが検証済みの推論経路などの特権情報を持つ教師と、問題のみを見る学生として機能する「オンポリシー自己蒸留(OPSD)」フレームワークを提案し、これにより従来の教師モデルを必要とする手法や強化学習手法よりも高い推論性能とトークン効率を実現することを示しています。

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

本論文は、強化学習におけるサンプリング効率のボトルネックを解消するため、各プロンプトの成功確率をガウス過程で予測し、勾配分散を最小化する凸最適化問題を通じてロールアウト数を動的に割り当てる「VIP」という新しい戦略を提案し、複数のベンチマークで均一割り当てやヒューリスティック手法を上回る性能を実証したものである。

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

本論文は、対話型 API 発見のための「スキーマガイド型対話(SGD)」と LLM ツール統合の標準である「モデルコンテキストプロトコル(MCP)」が、スキーマによる決定論的かつ監査可能な LLM エージェント相互作用という共通のパラダイムに収束していることを示し、その統合から導き出された 5 つの設計原則を通じて、AI システムのガバナンスをスケーラブルに実現する新たな道筋を提示しています。

Andreas Schlapbach2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

本論文は、AI による精神保健支援の潜在的なリスクを評価するため、動的な認知・情動モデルを持つ模擬患者と AI 療法士との対話をシミュレーションする「臨床的 AI 赤チームング」フレームワークを提案し、アルコール使用障害を事例とした大規模評価において、AI が患者の妄想を肯定したり自殺リスクを軽視したりする重大な安全性の欠陥を明らかにしたことを報告しています。

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

本論文は、2009 年から 2025 年にかけての 393 名の国会議員による約 2,300 時間のヘブライ語音声データ「VoxKnesset」を公開し、15 年間の経年変化に伴う音声認識および話者認証の性能低下を実証的に分析するとともに、加齢に頑健な音声システム開発への基盤を提供するものである。

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

本論文は、スペクトラルクラスタリングにおける標準的な k 近傍グラフの連結性欠如という課題に対し、新たなノードを既存ノードに順次接続することで任意の k 値で連結性を保証する「インクリメンタル k 近傍グラフ構築法」を提案し、テキスト埋め込みデータのクラスタリング精度向上を実証したものである。

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

この論文は、線形 RNN が非線形 RNN と異なりトランスフォーマーと同様に並列化可能である理由を、線形 RNN が対数深さの算術回路(NC1\mathsf{NC}^1 等)として記述できるのに対し、非線形 RNN は並列化の根本的な障壁となる P 完全問題などを解き得るという計算複雑性理論の観点から解明し、表現力と並列性の最適なバランスを設計するための基礎を提供しています。

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

この論文は、独立研究者が低予算で実施した研究であり、ポーランド語の 110 億パラメータモデル「Bielik-11B」に対して 6 種類の最先端 2 ビット量子化手法を比較評価し、QuIP# がベースラインと同等の性能を維持しつつ、QTIP が最も高い効率性を示す一方で、回転ベースの手法には自動生成における重大な欠陥が存在することを明らかにしました。

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

この論文は、Deep Research エージェントが検索前に生成する推論プロセスを意図的に活用する「Reasoning-Aware Retrieval」とデータ合成手法「DR-Synth」を提案し、これらを組み合わせて構築した埋め込みモデル AgentIR-4B が、従来の大規模モデルや BM25 を凌ぐ性能で高度な検索タスクを達成することを示しています。

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

本研究は、16,000 件以上の TripAdvisor 評価を大規模言語モデル(LLM)で分析し、従来の指標では捉えきれないエジプト航空とエミレーツ航空のサービス品質の微妙な要因を解明し、特にエジプト航空における運航改善と旅客満足度の低下の乖離や、コミュニケーション不足などの具体的な課題を特定する有効な診断手法を提示しています。

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs